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xiach£oXgend : 

PCT-Paiien'tazimaldung' £iu: aJ.le Iiander 
der 

Pacb ZFP Technologies AG 

Matbmannsliar . 1 

HOnchen 

1. Exnlextnng 

Die vorliegende Erfindung betrifft das Oberbegrif f lich Bean- 
spruchte, Damit befaUt sich die vorliegende Erfindung itiit der 
Frage^ wie rekonf igurierbare Architekturen optimal verwendet 
werden konnen und insbesondere damit, wie Anweisungen in einer 
gegebenen Hochsprache in rekonf igurierbaren Architekturen op- 
timal zur Ausfiihrung gebracht werden konnen. 

Um in sog. Hochsprachen geschriebene Anweisungen zur Handha- 
bung von Daten (Programme) in einer jeweiligenr zur Datenhand- 
habung verwendeten Architektur zur Ausfuhrung zu bringen, sind 
sog. Compiler bekannt^ die die Anwei5i:uigen der Hochsprache in 
an die verwendete Architektur besser angepalJte Anweisungen 
ubersetsen. Compiler^ die dabei hochparallele Architekturen 
besonders unterstUtzen^ sind demgemaB parallelisierende Compi- 
ler. 

Parallelisierende Compiler nach dem Stand der Technik verwen- 
den far gewShnlich spezielle Konstrukte wie Semaphore und/oder 
andere Verfahren zur Synchronisation- Dabei werden typischer- 
weise technologiespezif ische Verfahren verwendet. Bekannte 
Verfahren sind nicht geeignet^ um funktional specif izierte Ar- 
chitekturen mit dem sugehOrigen Zeitverhalten und imperativ 
spezif Izierte Algorithem zu kombinieren. Daher liefern die 
verwendeten Methoden nur in Spezialf alien zuf riedenstellende 
Lttsungen. 
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Compiler fur rekonfigurierbare Architekturen^ insbesondere far 
rekonfigurierbaren Prozessoren^ verwenden fUr gewohnlich Ma- 
kros, die speziell far die bsstiirante rekonf igurierbare Hard- 
ware erstellt wurdeiir wobei far die Erstellung der Makros zu- 
meist Hardwarebeschreibungssprachen wie z-B. Verilog, VHDL 
Oder Systeiu-C verwendet warden. Diese Makros werden dann von 
einer gewChnlichen Hochsprache (2,8, C,, C++) aus dem Prograinm- 
fluss heraus aufgerufen (instantiiert) - 

Compiler fQr Parallelrechner sind bekannt^ die auf einer grob- 
granularen Struktur, zumeist: basierend auf kompletten Funktio- 
nen oder Threads Programmteile auf mehrere Prozessoren abfail- 
den, 

Weiterhin sind vektorisierende Compiler bekannt^ die eine 
weitgehende lineare Datenverarbeitung, wia z.B. Berechnungen 
grofier AusdrUcke in eine vektori3ierte Form iirawandeln und da- 
mit die Berechniing auf superskalaren Prozessoren und Vektor- 
prozessoren (z-B, Pentium, Cray) ermSglichen. 

Vorliegend wird ein Verfahren zur automat ischen i^bildung von 
funktipnal oder imperativ formulierten Rechenvorschrif ten auf 
unterschiedliche Zieltechnologien beschrieben, insbesondere 
auf ASICs rekonf igurierbare Bausteine (FPGAs, DPGAs^ VPUs^ 
ChessArray;. KressArray, Chameleon, etc.; im folgenden unter 
dem Begrif f VPU zusammengef afit) , sequentielle Prozessoren 
(CISC-/RISC-CPUS, DSPs, etc.; im folgenden unter dem Begrif f 
CPU zusammengef afi>t) und parallele P^echnersysteme (SMP, MMP, 
etc,)* Hingewiesen wird insbesondere in diesem Zusammenhang 
auf die folgenden ScHut zrechte und Patentanmeidungen desselben 
Anmelders: P 44 16 881.0-53, DB 197 81 412.3, DE 197 81 483.2, 
DE 196 54 846.2-53, DE 196 54 593.5-53, DE 197 04 044-6-53, 
DE 198 80 129.7, DE 198 61 088.2-53, DE 199 80 312.9, 
PCT/DE 00/01869r DB 100 35 627,9-33,. DE 100 28 397.7, 

FmP-f.7'Pi + :1R/nR/9nn9 99!RR FinD-f nr 1^9^ P nnP' 
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DE 101 10 530.4, DE 101 11 014.6, PCT/EP 00/10516, 
EP 01 102 674.7, PACT13, PACT17, PACT18, PACT22, PACT24, ' 
PACT25, PACT26US, PACT02, PACT04, PACT08, PACTIO, PACT15, 
PACT18(a), PACT 27, PACT19. Diese sind hiermit zu Offenba- 
rvingszwecken volliunf anglich eingegliedert. 

VPOs bestehen grundsatzlich aus einer mehrdimensionalen homo- 
genen oder inhomogenep, flachen Oder hierarchischen Anordung 
CPA) von Zell^n (PAEs) , die beliebige Funktionen, i.b. logi- 
sche und/oder arithmetische Funktionen und/oder Speicherftank- 
tionen und/odex Netzwerkfunktionen ausfUhren k5nnen. Den PAEs 
ist typisch eine Ladeeinheit (CT) zugeordnet, die die.Funktion 
der PAEs durch Konf iguration und ggf . Rekonfiguration 
s'tiinni't. 



Das verfahren basiert auf einem abstrakten parallelen Maschi- 
nenmodell, das neben dem endlichen Automaten auch in^erative 
Problemspezifikationen integriert vind eine effiziente algo- 
rithmische Ableitung einer Implementxerung auf untarschiedli- 
che Technologien ermoglicht. 

Folgende Compilerklassen sind nach dem Stand der Tschnik be- 
kannt : 



Klassische Compiler, die haufig Stack-Maschinen-Code generie- 
ren und far sehr einfache Prozessoren geeignet waren, die im 
Wesentlichen als noinnale Sequenzer ausgestaltet sind. (vgl. 
N.Wirth, Compilerbau, Teubner Verlag) . 

Vektorisierender Compiler bauen weitgehend linearen Code, der 
auf spezielle Vektorrechner oder stark gepipelinte Prozessorei 
abgestimrat ist. Ursprtinglich waren diese Compiler fur Vektor- 
rechner wie CRAY verfiigbar. Moderne Prozessoren wie Pentium 
ben6tigen aufgrund der langen Pipelinestruktur ahnliche Ver- 
fahren. Da die einzelnen Rechenschritte vektorisiert (gepipe- 

Empf .zeit : 16/08/2002 22:56 Fmpf .nr . :R99 P mn 
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lined) ablaufen ist dex Code sehr viel effizienter. Allerdings 
bereitst der bedingte Sprung ProblemQ fur die Pipeline. Daher 
ist eine Sprungvorhersage ' sinnvoll, die ein Sprungziel an- 
nimmt. 1st die Annahme falsch, muss jedoch die gesamte Verar- 
beitungspipelin© gelSscht werden. Mit anderen Worten ist jeder 
Sprung fur diese Compiler problematisch", eine Parallelverar- 
beitung iia eigentlichen Sinn ist nicht gegeben. Sprungvorher- 
sagan und ahnliche Mechanismen erf ordern elnen erheblichen Zu- 
satzaufwand an Hardware. 

Grobgranulare parallele Compiler existieren im eigentlichen 
Sinne kaum, die Parallelitat wird typischerweise durch den 
Prograromierer oder das Betrisbssystem markiert vmd verwaltet, 
also beipielsweise bei MMP-Computersysteme wie verscheiden IBM 
Architekturen, ASCI Red, etc. zumeist auf Thread-Ebene durch- 
gefUhrt. Ein Thread ist ein weitgehend unabhSngiger Prograram- 
block Oder gar ein anderes Programm. Threads sind daher grob- 
granular einfach zu paralleiisieren. Die Synchronisation und 
Datenkonsistenz ist vom Programmierer bzw. dem Betriebssystem 
sicherzustellen. Dies ist aufwendig su progranimieren und er- 
fordert einen wesentlichen Anteil der Rechenleistung eines 
Parallelrechner. Zudem ist durch diese grebe Parallelisierung 
nur ein Bruchteil der eigentlich raOglichen Parallelitat tat- 
sSchtlich nutzbar.. 

Feingranulare parallele (z.B. VLIW) Compiler versuchen die 
Parallelitat feingraunlar in VLIW Rechenwerke abzubilden, die 
mehrere Rechenoperationen in einem Takt parallel ausfUhren 
kdnnen aber einen gemeinsamen Registersatz besitzen. Ein we- 
sentliches Problem stellt dieser lixoitierte Registersatz dar, 
da er die Daten fUr sanitliche Rechenoperationen bereitstellen 
muss, zudem erschweren Datenabhangigkeiten und inkonsistente 
Lese/Schreiboperationen (LOAD/STORE) die Parallelisierung. 
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Rekonfigurierbare Prozessoren welsen eine groBe Anzahl an un- 
abhangigen Rechenwerken auf , die typisch in einem Feld ange- 
ordnet sind. Diese sind typisch nicht durch einen gemeinsamen 
Registersatz, sondern durch Busse niiteinander verbunden. Da- 
durch lassen sich einerseits leicht Vektorrechenwerke aufbau- 
en, andersrseits kOnnen auch einfach parallels Operationen 
durchgefUhrt werden. Durch die Busvsrbindungen werden entgegen 
der herkammlichen Registerkonzepte Datenabh^gigkeiten aufge- 
l«5st. 

Die Aufgabe der vorliegenden Erfindung besteht darin, Neues 
far die gewerbliche AnwendHng beraitzustellen. 

Die L©5ung dieser Aufgabe wird in unabhangiger Form bean- 
sprucht. Bevorzugte AusfQhriangsf ormen finden sich in den On- 
t eransprlichen , 

Es wird also vorg^schlagen, fiir sinan Compiler ftir rekonfigu- 
rierbare Prozessoren die Konzepte von vektorisierenden Compi- • 
lern und parallelisierenden (z.B. vliw) Compilem zugleich an- 
zuwenden und somit auf f eingranularer Ebene zu Vektoriaieren 
und parallelisieren. 

Ein wesentlicher Vorteil besteht darin, dass der Compiler 
nicht auf eine fest vorgegebene Hardware struktur abbilden 
muss, sondern die Hardwarestruktur mit dem erf indungsgemafien- 
Verfahren so konfigurlert werden kann, dass sie optimal fur 
die Abbildung des jeweiligen compilierten Algorithmus geeignet 
ist . 



2 . Beschreibiinq' 

Als Grundlage zur Abarbeitung praktisch jeder Methodik zur 
Spezifizierung von Algorithmen wird der endliche Automat ge- 
nutzt. Die Struktur eines endiichen Automaten ist in Figur 1 

Empf.zeit: 16/08/2002 22:56 Empf .nr.raw p m? 
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abgebildet. Ein einfacher endlicher Automat zerfailt in ein 
kombinatorisches Netz und eine Registerstuf e zum Zwischenspei- 
chem von Daten zwischen den einzelnen Datenverarbeitungszy- • 
klQn. 

Ein endlicher Automat ftihrt eine Anzahl rein koiubinaforischer 
(also s.B. logischer und/oder arithnvetischer) Datenmanipula- • 
tionen aus, um danach einen stabilen Zustand zu erreichen, der 
in einem Register (satz) reprSsentiert wird. Basierend auf die- 
sem stabilen Zustand wird entschieden, welcher nSchste Zustand 
im nachsten Verarbeitungsschritt erreicht werden soli und so-- 
mit auch, welche kombinatorischen Datenmanipulationen im nSch^ ' 
sten Schritt durchgeftihrt werden sollen- 

Beispielsweise reprSsentiert ein Prozessor oder Sequenzer si-, 
nen endlichen Automaten. In einem ersten Verarbeitungsschritt 
kann eine Subtraktion von datendurchgefiihrt werden. Das Ergeb- 
ni3 wird gespeichert. Im nSchsten Schritt kann basierend auf" 
dem Ergebnis der Subtraktion ein Sprung durchgeftihrt werden/ 
der je nach Vorzeichen dea Ergebnisses in eine andere Weiter- 
verarbeitung fdhrt. 

Der endliche Automat ena«5glicht die Abbildung komplexer Algo- 
rithmen auf bsliebige sequentielle Maschinen, wie in Figur 2 
abgebildet. Der dargestellte komplexe endliche Automat besteht 
aus einem komplexen kombinatorischen Netz, einem Speicher zum 
Ablegen von Daten und einem Adressgenerator zum Adressieren 
der Daten im Speicher. 

Nun kann jedes beliebige sequentielle Programm grundlegend als 
Qndlioher Automat interpretiert werden, wobei aber zumeist ein 
sehr groBes kombinatorisches Netz entsteht. Bei der Program- 
mierung klassischer "von Neumann "-Architektur en - also bei al- 
ien CPUs - werden daher die kombinatorischen Operationen in 
eine Folge von jeweils einzelnen einfachen, fest vorgegebenen 

BnPf.zeit:l6/08/2002 22:56 BnPf .nr.:9?9 P.ni.V 
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Operationen (OpCodes) auf CPU-interne Register zerlegt. Durch 
diese Zerlegung entstehen Zustande zur Steuerung der ineine 
Folge zerlegten kombinatorischen Operation, die aber innerhalb 
der urspriinglichen kombinatorischen Operation per se nicht 
vqrhanden sind, bzw. nicht benfttigt werden, Daher sind jedoch 
die abzuarbeitenden Zustande einer von Neumann Maschinen 
grundsatzlich von den algorithiuischen ZustSnden eines kombina- 
tori3chen Netses^ also den Registern endlicher Autoraaten zu 
unterscheiden . 

Es wurde nun erkannt, dass die VPU-Technologie \wie sie im we- 
sentlichen durch einige oder alle der Schriften PACTOlr 
PACT02^ PACT03, PACT04, PACT05, PACT08, PACTIO^ PACT13, 
PACT17, PACT18, PACT22, PACT24 definiert ist, die durch Bezug- 
nahme vollumf anglich eingegliedert sind) im Gegensatz zu den 
starren Opcodes von CPUs ermOglicht, komplexe Instruktionen 
entsprechend eines abzubildonden Algorithmus wie in flexiblen 
Konfigurationen hineinzukompilieren. 



2.1 Az±>ei'b3wei3e des Compilers 

Besonders vorteilhaft ist bei der Arbeitsweise des Compilers, 
wenn die komplexe n Instruktionen derart generiert werden, daii 
diese mGglichst langs in der PAE-Matrix ohne Rekonf icruration 
ausgefuhrt wird. 

Der Compiler generiert weiterhin den endlichen Automaten be^ 
vorzugt aus dem imperativen Quelltext derart, daJi er der je- 
weiligen PAE-Matrix besonders gut angepasst ist, also solche 
Operationen darin vorgesehen werden, die die typisch grobgra- 
nularen Logikkreise (ALUs etc.). gegebenenf alls auch vorhande- 
ne feingranulare Element e (FPGA-Zellen in der VPU, statemachi- 
nes etc.) besonders effizient nut sen. 



7 
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Der compilererzeugte endliche Automat wird dann in Konfiqura- 
tionen zerlegt. 

Das Abarbeiten (Interpretieren) dss endlichen Automaten- ge- 
schieht auf ainer vpo dejrart, daJ5 die generierten Konfigura- 
tionen succeslve auf die PAB-Matrix abgebildet warden und die 
Arbeitsdaten und/oder Zustande, die zwischen den Konfiguratio- 
nen zu abertragen sind, in Speicher abgelegt werden. Dazu kann 
das aus PACT04 beJcannte Vsrfahren bzw. die entsprechende Ar- 
chitektur verwendet werden. Dieser Speicher wird vom Compiler 
bestiramt beziehungsweise vorgesehen. Es reprSsentiert eine 
Konfiguration dabei eine Mehrzahl von Instruktionen; sine Kon- 
figuration bestimmt zugleich fiir eine Vielzahl von Takten die 
Arbeitsweise der PAE-Matrix, wahrend dieser Takte wird eine 
vielzahl von Daten. in der Matrix verarbeitet; diese stairaaen 
aus einer VPU externen Quelle luid/oder einem internen Speicher 
und werden an eine externa Quelle und/oder einen internen 
speicher geschrieben. Die internen Speicher ersetzen dabei den 
Registersatz einer CPU nach dem Stand der Technik derart, dafi 
z.B. ein Register durch einen Speicher reprSsentiert wird, wo- 
bei nicht ein Datenwort je Register gespeichert wird, sondern 
ein gesamtar Datensatz je Speicher. 

Wesentlich kann auch sein, daB die Daten und/oder Zustande der 
Verarbeitung einer ablaufendan Konfiguration compilerbestinunt 
in die Speicher abgelegt werden und somit der nachsten ablau- 
fenden Konfiguration zur Verftlgung stehen. 

Ein bedeutender Unterschied zu Compilern, die auf Instruk- 
tionsbasis parallelisieren, besteht somit darin, dafi das Ver- 
fahren die PAE-Matrix derart konfiguriert und rekonf igurier-t , 
dass eine konf igurierte Folge von kombinatorischen Netsen auf 
einer VPU erauliert wird, wShrend herkOmmliche Compiler gelade- 
ne Folgen von Instruktionen (Opcodes) kombinieren, wobei eine 
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Instruktion als ein koinbinatorlsches Nets betrachtet werden 
kann 1 

2 , 2 Angflihrangsbeisplel WHIIiE-Spraelie 

Im Folgenden soli die Funktionsweise des Compilers anhand ei- 
ner einfachen Sprache beispielhaft verdeutlicht werden, Dabei 
wird von einer Sprache ausgegangen, die in ihren Grundlagen 
bereits bekannt ist, wobei in einer bekannten Verof f entlichung 
[Rsferenz "Doktorarbeit Armin Niackel'*] jedoch lediglich die 
Abbildung einer Funktion auf ein statisches koinbinatorisches 
Netz beschrieben wirdr wahrend mlt der Erfindung nun die Ab- 
bildung auf Konf igurationen erfolgt^ die dann in einer zeitli- 
Chen Reihenfolge entsprechend des Algorithmus und der sich 
wahrend der Vsrarbeitung ergebenden Zustande auf die PAE- 
Matrix abgebildet werden . 

Die Programiuiersprache geht davon ausr dass neben einfachen 
logischen und/oder arithiuetischen Verkniipf ungen ein Befehl 
"WHILE" existiert, der mit folgender Syntax definiert ist: 
WHILE... 

Mogliche Konstrukte sind damit: Anweisung 

Folge von Anweisungen 
Schleife 

Eine Anweisung oder eine Folge von Anweisungen ist durch das 
beschriebene Coiupiler-Verf ahren auf ein kombinatorisches Netz 
abbildbar - 

Pxgrar 3si zeigt ein kombinatorisches Nets lait den dazugehCJren* 
den Variablen, Dabei kann sich der Inhalt ein und derselben 
Variable (z.B. xl) von einer Stufe (0301) des Netzes zur nSch- 
St en (0302) andern. 
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Diese Veranderung ist beispielsweise fur die .Zuweisung 

Kl Xl + X ' 

in Pigur 3b dargestellt. 

Zur Adressierung zura Lesen der Operanden und zum Spelchern der 
Ergebniss© kSnnen nun Adressgeneratoren mit dem kombinatori- 
schen Netz der Zuweisung synchronisiert werden- Mit jeder ver- 
arbeiteten Variable werden entsprechende neue Adressen' flir 
Operanden und Ergebnisse generiert (Fxgur 3c) - Die Art des 
AdressgeneratQrs ist prinzipiell beliebig und hSngt von den 
Adressierungsschematas der compilierten Applikation ab. 
FUr Operanden und Ergebnisse kSnnen gemeinsame^ kombinierte 
Oder vollstandig unabhangige Adress.generatoren implementiert 
werden, 

Typischerweise werden bei der Datenverarbeitung wie im vorlie- 
genden Datenverarbeitungsmodell sine Mehrzahl von Daten inner- 
halb einer bestiinmten Konf iguration der PAEs verarbeitet- Be- 
vorzugt ist. der Compiler daher fur die in vielen^ wenn nicht 
den laeisten Anwendungen nvdglichen einfachen FIFO-Modus ausge- 
legt^ der zumindest fur die Datenspeicher anwendbar ist, die 
innerhalb dieser Beschreibung zum Speichern yon Daten und Zu- 
stS.nden der Datenverarbeitung (quasi als Ersatz eines gewGhn- 
lichen Registersatzes herkoiwulicher CPUs) dienen. Mit anderen 
Worten dienen Speicher der temporaren Speicherung von Varia- 
blen zwischen den Konf igurationen. Auch hier ist eine Konfigu- 
ration Shnlich einer Instruktion eines normalen Prozessors und 
die Speicher (insbesondere eine Mehrzahl) sind vergleichbar 
rait dem Registersatz eines normalen Prozessors. 

2,2,3 Folqen von Anweisunqen 

Eine Fplge der beispielhaften Zuweisung lafit. sich wis folgt 
generieren (Figu^ 4a.) : 

.10 
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Kl X- 0; 
WHILE TRUE DO 

xl xl + 1; 

Diase Folge lafit sich nunmehr mittels einer Zuweisung gemafi 
2.2*1 und Adressg^neratoren fUr Operanden und Ergebnisse ab- 
bilden* 

EndllchQ Folqen 

Der VQllstandigkeit halber 30II eine besondere Ausgestaltung 
von Folgen abseits der definierten Konstrukte der WHILE Spra- 
che diskutiert warden. Eine endl'iche Folg^ der beispielhaften 
Zuweisung lafit sich wie folgt generieren: 
FOR i:=l TO 10 

Xl Xl + 1; 

Eine derartige Folge l^fit: sich durch zwei Arten . implementie- 
ren: 

a) Durch Generierung eines Addierers zur Berechnung von i ent 
sprechend des WfIII»E-Konstruktes (siehe 2.2.4) und. eines 
weiteren Addierers zur Berschnung von xl. Die Folge wird 
als Schleife abg^bildet und iterativ berechnet (Figur 5a) 

b) Durch Auswalzen der Schleife^ wodurch die Berechnung von i 
als Funktion entfSllt- Die Berechnung von xl wird i-mal in 
stantiiert und als Pipeline aufgebaut, wodurch i nacheinan 
dei: geschaltete Addierer entstehen (FigTir 5b) . 

2.2-4 Bedingungen 

Bedingungen lassen sich mittels WHILE ausdriicken. Beispiels- 
-weise: 
' , xl := 0; 

WHILE xl < 10 DO 
2sl iSl + 1; 

Die Abbildung generiert eine zusatzliche PAE zur Verarbeitung 

des Vergleiches. Das Vergleichsergefanis wird durch ein Sta- 

tussignal reprasentiert (vgl. Trigger in PACT08), das von den 

• * 
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die Anweisung verarbeitenden PAEs und den Adressgeneratoren 
ausgewertet wird. . . 

Die resultierende Abbildung ist in Fxgur ib dargestellt. 

Durch die Auswertung der Bedingung (hier WHILE ^ generell und 
einleuchtenderweise auch andere Anweisungen wie IF; CASE fea- 
lisierbar) wird ©in Status generiert^ der der nachf olgenden 
Datenverarbeitung zur Verfiigung gestellt werden kann (DE .197 
04 728.9) und/oder an die CT oder eine lokale Ladesteuerung 

(DB 196 54 84 6-2) gesendet werden kann, die daraus Information 

I. 

aber den weiteren Prograrraaf luB und evtl. anstehende Rekonfigu- 
rationen ableitet. 

2.2.5 Grundlegendes Verfahren 

Entsprechend den vorherigen Verfahren wird jedes Programm in 
ein System abgebildet, das wie folgt aufgebaut ist: 

1. Speicher fur Operanden (vgl ,* Register einer CPU) 

2. Speicher fUr Ergebnisse (vgl. Register ainer CPU) 

3- Netzwerk aus a) Zuweisungen und/oder b) Vergleichen- 
Anweisungen^ also Bedingungen wie z-B. IF,. CASE^ Schleifen 
(WHILE ^ FOR^ REPEAT) 

4. Optionalen Adressgenerator (en) zur Ansteuerung der Speicher 
nach 1 und 2. 

2.2.6 Umgang mit Zustanden 

Es wird nun fur die Zwecke des beschriebenen Compilers zwi- 
schen algorithmisch relevanten und irrelevanten Zustanden un- 
terschieden- Zustande werden in der VPU-Technologie fur ge- 
wohnlich durch Statussignale (z-B. Trigger in PACTOa) und/oder 
Handshakes (z-B. RDY/ACK in PACT02) dargestellt. Generell kon- 
nen Zustande (v. a. in anderen Technologien, wie FPGAs^ DPGAs, 
Chameleon-Bausteinen, Morphics^ etc.) durch beliebige Signals, 

.12 
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Signalbtindel und/oder Register dargestellt werden. Das offsn- 
j^gj,^^ Compilierverfahren kann auch auf solche angelegt werden, 
obwohl wesentlichs Telle der Beschrsibung bevorzugt auf die 
VPU fokussieren. 

Relevant© ZustSnde sind innerhalb des Algorithmus notwendig um 
dessen korrekte Funktion zu beschreiben. Sie sind far den Al- 
gorithmus wesentlich- 

Irrelevante ZustSnde entstehen durch die verwendete Hardware 
und/oder die gewshlte Abbildung Oder aus anderen sekundaren 
Grunden. Sie sind damit fiir die' Abbildung (also die Hardware) 
wesentlich- 

Lediglich die relevanten Zustande miissen iciit den Daten erhal- 
ten werden. Daher werden diese susairaaen mit den Daten in den 
Speichern abgelegt,, da sie entweder als Ergebnis. der Verarbei-- 
tung mit den Daten auftraten oder als Operanden rait den Daten 
fur den nachsten Verarbeitungssyklus notwendig sind- 

Irrelevante Zustande sind dagegen nur Grtlich und/oder zeit- 
lich lokal notwendig und mttssen daher nicht gespeichert wer- 
den. 

Beispiel: 

a) Die Zustandsinf ormation eines Vergleichs ist fiir die weite- 
re Verarbeitung der Daten relevant, da dieser die auszuftth- 
renden Funktionen bestiirant. 

b) Angenonmien^ sin sequentieller Dividierer entsteht bei- - 
spielsweise durch Abbildung eines Divisionsbef ehles auf ei- 
ne Hardware, die nur die sequentielle Division unterstvitzt. 
Dadurch entsteht ein Zustand, der den Rechenschritt inner-- 
haib der Division kennzeichnet . Dieser Zustand ist irrele- 
vant, da far den Algorithmus nur das Ergebnis (also die 
ausgefuhrte Division) erforderlich ist. In dieseiu Fall wer- 
den also lediglich das Ergebnis und die Zeitinf ormation 
(also die Verf tagbarkeii:) benotigt, Der Compi3-er unterschei- 
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det solche relevante und irrelevante Zustande bevorzugt 
voneinander.- 

Die Zeitinformation ist beispislsweise in der • VPU-Technologie 
nach PACTOl^ 02, 13 durch das RDY/ACK Handshake erhSltlich. 
Hierzu ist jedoch besonders anzumerkerir dass das Handshake 
ebenfalls keine relevanten Zustand darstellt, da as lediglich 
die Gaitigkeit der Daten signalisiertr wodurchsich wiederum 
die verblsibende relevante Information auf die Existenz gtilti- 
ger Daten reduziert* 

2>2,7 Umganq iciit Zeit 

In vlelsn Prograiomiersprachen, -besonders in sequentiellen wie 
2.B. wird eine exakts zeltliche Reihenfolge implizit durch 
die Sprache vorgegeben; bei sequentiellen Programmiersprachen 
geschieht dies beispielsweise durch die Reihenfolge der ein- 
zelnen Anweisungen- Sofern dies durch die Programmiersprache * 
und/oder den Algorithmus erforderlich ist, wird das Compilier- 
verfahren so ausgefuhrt^ dass sich die Zeit information auf 
Synchronisationsmodelle wie RDY/ACK und/oder REQ/ACK oder ein 
Time-Stamp-'Verf ahren nach DE 101 10 530.4 abbilden lasst, 

Mit anderen Worten wird die iraplizite Zeitinf ormation von se- 
quentiellen Sprachen in ein Handshake Protokoll derart abge- 
bildet^ dass das Handshake Protokoll (RDY/ACK-Protokoll) die 
Zeit information tibertragt und insbesondere die Reihenfolge der 
Zuweisungen garantiert. 

, Beispielsweise wird die nachfolgende for-Schleife nur dann 
durchlaufen und iteriert^ wenn die Variable inputstream je 
Durchlauf mit einem RDY quittiert ist. Bleibt RDY aus^ wird 

! der Schleif endurchlauf bis zum Eintreffen von RDY angehalten. 

while TRUE 

\ 

! * 

14 
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S 0 

for i:« 1 to 3 

3 s ^ inputstream; 

-Die Eigenschaft der sequentiellen Sprachen, nur von der Be- 
fehlsverartoeitung gesteuert zu werden, wird somit bel der Com-, 
pilierung mit dem batenf luBprinzip, die Verarbeitung durch den 
Datenstronir bzw* die Existenz von Daten zu steuern verbunden. 
Mit anderen Worten wird ein Befehl und/oder sine Anw^isung 
(2,B. s s + inputstream;) nur verarbeitet^ wenn die Opera- 
tion ausgeftihrt werden kann und die Daten verfugbar sind. 

Bemerkenswert ist, dafi dieses Verfahren gew5hnlicherweise zu 
keiner Anderung der Syntax oder Semantik einer Hochsprache 
fuhrt. Es kann also vorhandener Hochsprachencode durch Neucom- 
pilierung problemfrei zur Ausfahrung auf einer VPU gebracht 
werden. 

2,2-8 Laden und Speichern von Paten 

Fxir die Grundlagen der Load/Store Operationen ist folgendes 
beachtlich. 

Die naohf olgenden Adressierungsarten werden unterschiedlich 
behandelt: 

1. externe Adressierung, also die Datentransf ers mit ^xter- 
nen Baugruppen 

2. interne Adressierung, also die Datentransf ers zwischen 
PAEs, i.b. zwischen RAM-PAEs und ALU-PAEs 

Desweiteren kann die zeitliche Entkopplung der Datenverarbei- 
tung und dem Laden und Speichern der Daten besondere Beachtiang 
f inden . 

I 
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Bustransfers werden in interne und externe Transfers zerlegt. 
btl) Esiteme Lesezugriffe (Load -Operation) werden separiert, 
in einer raOgiiphen Ausftihrung auch bevorzugt in sine separate 
Konfiguration tibersetzt. Die Daten werden von eineiu externen 
Speicher in einen internen transf eriert - 

bt2) Interne Zugriffe werden mit der Datenverarbeitung gekop- 
pelt, d.h. die internen Speicher (Register Operation) werden 
fiir. die Datenverarbeitung gelesen, bzw, beschrieben. 

bt3) Externe Schreibzugrif f e (Store Operation) werden sepa- 
riert, in einer bevorzugten raSglichen AusfOhrung auch in eine 
separate Konfiguration tibersetzt. Die Daten werden von einem 
internen Speicher in einen externen transferiert . 

Wesentlich ist, dass die btl, bt2, bt3 - also das Laden der 
Daten (Load) , das Vsrarbeiten der Daten (Datenverarbeitung und 
bt2) und das Schreibeh der Daten (bt3) - in unterscheidliche 
Konfigurationen tibersetzt werden konnen und dieso ggf . zu ei- 
nem unterschiedlichen Zeitpunkt ausgeftihrt werden. 

Das Verfahren soli an dem nachfolgenden Beispiel verdeutlicht 
werden: 

function example (a, b : integer) -> x : integer 
for ir-s 1 to 100 
for j:= 1 to 100 

xCi] a[i] * b[j] 

Die Punktion kann vom Compiler in drei Telle, bzw. Konfigura- 
tionen (siafaconfig) transf ormiert : 

example#dload: Ladt die Daten von extern (Speicher, Periphe- 
rie, etc.) und schreibt diese in interne Speicher. Interne 
Speicher sind mit r# und dem Namen der ursprtinglichen Variable 
ge kenn z e i chne t . , ' 

16 
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exampletprocess: Entspricht der eigentlichen Datenverarbei- 
tung- Diese liest die Daten aus internem Operanden und 
schreibt die Ergebnisse wieder in interne Speicher. 
exainple#dstcre: schreibt die Ergebnisse aus dem internen Spei- 
cher nach extern (Speicher,. Peripherie, ' etc. ) - 

function example* (a, b : integer) -> x : integer 
subconfig example#dload 
for i := 1 to 100 

r#a[i] a[i] 
for j 1 to 100 

r#b[j] := b[j] 

subconfig example #process 
for i := 1 to' 100 
for j 1 to 100 

r#x[i] := r#a[i] * r#b[j] 

subconfig example#dstore 
for i := 1 to 100 
x[i] r#x[i] 

Ein wesentlicher Effekt des Verfahrens ist, dass anstatt i*j » 
100 ^ 100 = 10.000 extern© Zugriffe nur i+j « 100 + 100 - 200 
externe Zugriffe zum Lesen der Operanden ausgefUhrt werden. 
Diese Zugriffe sind zudem noch vollkommen linear, was die 
Transf ergeschwindigkeit bei modernen Bussystemen (Burst) 
und/oder Speichern (SDRAM, DDRAiyi, RJ^BUS, etc) erheblich be- 
schleunigt, 

Di«3 internen Speichearzugrif f e erfolgen parallel;, da den Ope- 
randen unterschiedliche Speicher sugewiesen wurden. 
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Zum Schreiben der Ergebnisse sind i « 100 externa Zugriffe 
notwendig, die ebenfalls wieder linear mit maKiiaaler Perfor- 
mance erfolgen konnen. 

Wenn die Anzahl der Datentransfers vorab nicht bekannt ist 
(z.B- WHILE-Schleifen) Oder- sehr grofi ist, kann ein Verfahren 
verwendet werden, das bei Bedarf durch Unterprogrammauf ruf e 
die Operanden nachladt bzw. die Ergebnisse nach extern 
schreibt- Dazu kannen in einer bevorzugten Ausfvihrung (auch) 
die Zustande der FIFOs abgefragt werden: 'empty' wenn das FIFO 
leer ist, sowie 'full' wenn das FIFO voll ist . Entsprechend 
der Zustande reagiert der Programmf luiJ . Zu bemerken ist, dass 
bestiinmte Variablen (z.B. ai, bi, xi) global definiert sind. 
Zu Performanceoptimierung karin ein Scheduler entsprechend der 
bereits beschriebenen Verfahren die Konf igurationen exan^j- 
le#dloada, example #dloadb bereits vor dem Aufruf von examp- 
le#process bereits ausftihren,- sodass bereits Daten vorgeladen 
sind. Ebenso kann exainple#dstore (n) nach der Terminierung von 
example#proces5 noch aufgerufen werden um r#x zu leeren. 

subconf ig exainple#dloada (n) 
while !full{r#a) AND ai<:=n 
r#a[ai] := a[ai] 
ai++ 

subconfig exampl6#dloadb (n) 
while !full(r#b) AND bi<-n 
r#b[bi] := b[bi] 
bi++ 

subconf ig exaniple#dstore (n) 
while ! empty (r#x) AND xi<=n 
x[xi] := r#x[xi] 
xi++ 
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subconfig example#process 
for i := 1 to n . 
for j := 1 to m 

if empty (r#a) then exampletdloada (n) 

if empty (r#b) then example#dloadb (m) 

if full(*r#x) then example#dstore (n) 

r#x[i] := r#a[i] * r#b[j] 
bj := 1 

Die Unterprogrammaufrufe und das Verwalten der globalen Varia- 
blen sind filr rekonf igurierbare Architekturen vergleichsweise 
aufwendig. Daher kann in einer bevorzugten Ausftihrung die 
nachfaXgende Optimierung durchgeftihrt werden, in welcher • sSmt- 
liche Konfigurationen weitgehend unabangig ablaufen und nach 
vollstandiger Abarbeitung terminieren (terminate) . Da die Da- 
ten b[j] mehrfach erforderlich sind, muB exampletdloadb ent- 
Sprechend mehrfach durchlaufen werden. Dazu werden beispiels- 
weise zwei Alternativen dargestellt: 

Alternative 1: eKample#dloadb terminiert nach jedeni Durchlauf 
und wird von exanipls#pracess fttr jeden Neustart neu konfigu- 
riert . 

Alternative 2: example#dloadb lauft unendlich und wird von ex- 
ainple#process terminiert - 



wanrend 'idle' ist eine Konf iguration untatig (wartend) 

siabconf ig example#dloada (n) 
for i:= 1 to n 
while full(r#a) 

idle 
r#a[i] :« a[i.] 
terminate 

subcbnfig exa^plefdloadb Cn) 
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While 1 // ALTEFNATIVE 2 
for i:= 1 to n ' •.- 
while full(r#b) 
idle 

r#b[i] a[i] 
terminate 

subconfig eKamplsidstore (n) 
for i:= 1 to n • 
while empty (r#b) 

idle 
xEij :- r#x[i3 
terminate 

subconfig example #process 
for i :- 1 to n 
for j:- 1 to m 

while empty {r#a) or empty (r#b) or full (r#x) 
idle 

r#x[i] := r#a[i] * r#b[j] 
conficr examplei tdloadbfri) // ALTERNATIVE 1 
terminate examoleS dloadb fn) // ALTERNATIVE 2 
terminate 



Zur Vermeidung von Wartezyklen konnen Konfigurationen auch 
terminiert werden, sobald sie ihre Aufgabe temporar nicht wel- 
ter erf alien kennen. Die entsprechende Konf iguration wird von 
dem rekonrigurierbaren Baustein entfsrnt. verbleibt jedoch im 
scheduler. Hierzu wird im Folgenden der Befehl 'reenter' ver- 
wendet. Die relevanten. Variablen werden vor der Terminierung 
gesichert und bei der wiederholten Konf iguration wiederherge- 
stellt: 

* I 

subconfig example#dloada (n) } 
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for ai:=» 1 to n 

if full(r#a) reenter 

r#a[ai] := a[ail 
terminate 

subcbnfig exampleMloadb (n) 
while 1 // ALTEmATIVB 2 
for bi:= 1 to n 

if full(r#b) reenter 
r#fa[bi] a[bi] 
terminate 

subconfig exaiuple#dstore (n) 
for xi:— 1 to ri 

if empty {r#b) reenter' 

x[xi] := r#x[xi] 
terminate • 

subconfig example#process 
for i := 1 to n 
for j := 1 to m 

if empty (r#a) or empty (r#b) or full(r#x) reenter 
r#x[i] := r#aCi] * r#b[j] 
confi(j ^Kajgpl&idloadJD (n) // ALTERNATIVE 1 
terminate example^dloadh (a) // ALTEENATIVE 2 
terminate 

2>3 Makros 

Komplexere Funktionen einer Hochsprache, wie s.B, Sahleifenr 
werden typisch durch Makros realisiert. Die Makros werden da- 
bei voia Compiler vorgegeben und sur Ubersetzungsseit instanti- 
iert. (vgl. Figur 4) , 

I 
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Die Makros sind entweder aus einfachen SprachkonstruktQn der 
HQchspraohe oder auf Assemblerlevel aufgebaut. Makros konnen 
parametrisiert sein, urn eine einfache Adaption an den beschie- 
benen Algorithiaus zu ermSglichen^ (vgl. Figur 5, 0502) . Die 
Makros sind auch vorliegend einzugliedern. 

2.4 Feedback Loops und Register 

Innerhalb der Abbildung eines Algorithmus in ein korabinatori- 
sches Netz kdnnen unversagerte Ruckkopplungen - entstehen^ die 
unkontrolliert schwingen. 

In praktisch implementierten VPU-Technologien gemSii PACT02 
wird dies durch einen Aufbau der PAE verhindert, bei welchem 
mindestens ein Register zur Entkopplung, etwa fest in den 
PAESr definiert ist, 

Generell sind unverzc3gerte Riickkopplungen durch Graphenanalyse 
des entstandenen koitibinatorischen Netzes f eststellbar . In' die 
Datenpfade^ in denen eine unverzogerte Ruckkopplung besteht, 
werden daraufnin gezielt Register, zur Entkopplung eingefligt- 
Der Compiler kann soitiit Register- beziehungsweise Speichermit- 
tel verwalten. 

Durch die Verwendung von Handshake-Protokollen (z.B, RDY/ACK 
gem. 2.2.7) ist die korrekte Funktion der Berechnung auch 
durch das Einfiigen von Registern sichergestellt. 

2.5 Prozssoriaodell / Time Domain Multiplexing (TDM) 
Grundsatzlich besitzt jede praktisch realisierte PAE-Matrix 
lediglich eine endliche Gr6Be. Daher mufi liu folgenden Schritt 
eine Partitionierung des Algozrxthmus nach 2.2-5 i!\bs. 4 a/b in 
eine Mehrzahl von Konf igurationen durchgeftihrt werden , die 
nacheinander in die PAE-Matrix konfiguriert werden. Ziel ist 
typisch/ maglichst viele Datenpakete in dem Netzwerk zu be- 
rechnen, ohne umkonf igurieren zu mtissen. 



22 



16H=^UG-2002 23:01 



PflT.-RNW. P. PIETRUK 



+49 721 4S930S S.30 



Zwischen den Konf igurationen wird elne Zwischenspeicherung 
vorgenommen,. wobei der Zwischenspeicher - ahnlich eines Regi- 
sters bei CPUs - die Daten zwischen den einzelnen sequentiell 
ausgeftthrten Konf igurationen speichert- 

Somit wird durch das Rekonf igurieren von Konf igurationen, der 
Datenverarbeitung in der PAE-Matrix und der Zwischenspeiche- 
rung in den Speiohern ein sequentielles Prozessoinuodell aufge- 
baut . 

Mit anderen Worten wird in der VPU-Technologie durch die be- 
schrlebene Compilierung nicht ein Opcode sequentiell ausge- 
ftihrtr sondern komplexe Konf igurationen . WShrend bei CPUs ein 
Opcode typischerweise ein Datenwort bearbeitet^ werden in der 
VPU-Technologie eine Mehrzahi von Datenworten (ein Datenpaket) 
von einer Konf iguration bearbeitet. Dadurch steigt die Effisi- 
enz der rekonf igurierbaren Architektur durch ein besseres Ver~ 
haltnis' zwischen Rekonf igUrationsauf wand und Datenverarbei- 
tung, 

In der VPU-Technologie wird zugleich anstatt eines Registers 
ein Speicher verwendet, da nicht Datenworte,. sondern Datenpa- 
ket e zwischen den Konf igurationen bearbeitet werden. 

Dieser Speicher kann als Random-Access Memory, Stack/ FIFO 
Oder als beliebige andere Speicherarchitektur ausgestaltet 
sein^ wobei typischerweise mit einem FIFO die beste und am 
einfachsten zu realisiernde MSglichkeit gegeben ist. 

Daten werden nunmehr durch die PAE-iaatrix, entsprechend des 
konf igurierten Algorithmus^ bearbeitet und in einem oder meh— 
reren Speichern gespeichert. Die PAE-Matrix wird nach der Be- 
arbeitung einer Menge von Daten umkonf iguriert und die neue 
Konf iguration entnimmt die Zwischenergebnisse aus' dem/den 
Speicher (n) und setzt die Ausfiihrung des Programmes forr. Da-* 
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bei konnen durchaus auch neue Daten von externen Speichern 
und/oder der Peripherie susatslich in die Berechnung einflie- 
fien^ ebensQ konnen Ergebnisse an externen Speichern und/oder 
der Peripherie geschrieben werden. 

Mit anderen Worten ist der typische Ablauf einer Datenverar- 
beitung das Ausles.en von internen RAMs, das Verarbeiten der 
Daten in der Matrix und das Schreiben von Daten in die inter- 
nen Speicher, wobei zur Datenverarbeitung auch beliebige ex- 
teme Quellen oder Ziele f\ir Datentransfers zus^tzlich oder 
anstelle der internen Speicher verwendet werden kSnnen. 

Wahrend "sequencen" bei CPUs als das Neuladen eines Opcodes 
definiert ist:^ wird nach dem Vorstehenden ''sequencen'' voh vpus 
also als das (Re) konf igurieren von Konf igurationen definiert. 
Dies bedeutet allerdings nicht, dafl nicht unter bestiromten Be- 
dingungen Teile des Feldes als Sequenzer im herkammlichen Sin- 
ne betrieben werden konnten. 

Die Information^ wann und/oder wie gesequenzt wird, d.h. wel-- 
Che nSchst© Konf iguration konf iguriert werden soil, ist: durch 
verschiedene Inf ormationen darstellbar, die einzeln oder kom- 
biniert verwendet werden k5nnen. Z- B. sind folgsnde Strategi- 
en zur Ableitung der Information allein und/oder in Koiubinati- 
on bzw. alternativ sinnvoll: 

a) d\irch den Compiler zur Obersetzungszeit definiert; 

b) durch das Event-Netzwerk definiert 
(Trigger, DB 197 04 728.9), 

wobei das Bventnetzwerk interne und/oder externe Zustande 
reprasentieren kann; 

c) durch den Ftallgrad der Speicher 

(Trigger, DE 197 04 728.9, DE 196 54 846.2-53), 

2,5,1 Einflufi des TDM auf das Prozessormodell 
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Die Partitionierung des Algorithmus bestimmt entscheidend die 
relevant en ZustSnde, die in den Speichern zwischen den ver- 
schiedenen Konf igurationen abgelegt werden. Sofern ein Zustand 
nur innerhalb einer Konfiguration relevant ist (lokal relevan- 
ter Zustand), ist es nicht notwendig, diesen zu speichern, was 
vom Con^ilierverfahren bevorzugt "berQcksichtigt wird. 

zu Zwecken des Debuggings des auszufuhrenden Programiaes kann 
es afaer sinnvoll sein, diese Zustande dennoch zu speichern, urn 
dem Debugger einen Zugriff auf diese zu ermoglichen. Auf die 
DE 101 42 904.5 wird verwiesen; diese ist hiermit vollumfang- 
lich zu Of fenbarungs zwecken eingegliedert- 

Weiterhin kCnnen zusatzlich Zustande relevant werden, wenn ein 
Taskswitch-Mechanismus (z.B, durch ein Betriebssystem oder In- 
terruptquellen) verwendet wird und aktuelle ausgefQhrte Konfi- 
gurationen untsrbrochen werden, andere Kpnf igurationen geladen 
werden und/oder zu einem spateren Zeitpunkt die abgebrochene 
Konfiguration fortgesetzt werden soli. Bine detailliertere Be- 
schreibung folgt im nachfolgenden Abschnitt. 

Ein einfaches Beiapiel soil ein Unterscheidungsmerkmal far lo- 
kal relevante Zustande aufzeigen: 

a) Eine Versweigung des Types "if () then ... else paBt 
vollstandig in eine einzige Konfiguration, d.h. beide Da- 
tenpfade (Zweige) sind gemeinsam vollstandig innerhalb der 
Konfiguration abgebildet. Der sich beim Vergleich ergebende 
Zustand ist relevant, jedoch lokal, da er in den nachfol- 
genden Konf igurationen nicht mehr benStigt wird. 

b) Dieselbe Verzweigung ist zu grofl, um vollstandig in eine 
ein:cige Konfiguration zu passerx. Mehrere Konf igurationen 
sind notwendig, um die vollstandigen Datenpfade abzubilden. 
In dieaem Fall ist der Zustand global relevant und mufi ge- 
speichert und den jeweiiigen Daten zugeordnet werden, da 
die nachfolgenden Konf igurationen bei der Weiterver^'rbei- 
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tung der Daten den jeweiligen Zustand des Vergleichs benS- 
tigen. 



2.6 Task-Switching 

Einen zusatzlichen Einflufi auf di. Betrachtung und den tJiagang 
mit zustanden .hat der laegliche Einsatz eines B.triebasystexnes 
Betriebssysteme verwend^n beispielsweise Ta^k-Schedul-z: zum 
verwalten mehr^re Auf gaben (Tasks) , um ein ^3ultitasking znr 
VerfUgung su stellen. 

Task-Scheduler brachen Tasks zn einam bestiinmten Zeitpunkt ab 
starten andere Tasks und kehren nach deren Abarbeitung zur 
Wexterbearbeitung des abgebrochenen Tasks zurtick 
Sofern sichergestellt ist, dafi ein^ Konfiguration ^ die hier 
der Abarbeitung eines Tasks entsprechsn kann - nur nach der 
kox^pletten Abarbeitung - d.h. wenn alle innerhalb dieses" Kon- 
fxgurationszyklusses zn b^arbeitende Daten und Zustande- ge- 
speichert sind - terminiert, k5nnen lokal relevanta Zust^nde 
ungespeichert blaiben. Dieses Verfahren, also das komplette 
abarbeiten einer Konfiguration und der nachfolgende Taskswitch 
xst die bevorzugte Methode fUr den Betrieb von rekonf igurier- 
baren Pro.essoran und entspricht Im Wesentlichen dam Ablauf in 
exnem normalen Prozessor, der auch zunachst die aktuell bear- 
beiteten Xnstruktionen abarbeitet und dann den Task wechselt. 

Fur n^anche Anwendungen ist jedoch eine besonders kurze Reakti- 
on auf ein^ Taskwechselsanf crderung erforderlich, z B in 
Realtizne-Anw.ndung.n. Hier kann es sinnvoll sein Kcnf iguratio- 
nen vor deren kcmpl«tter Abarbeitung abzubrechan 
sofern der Task-Scheduler Konf igurationen vor deren vollatan- 
dxger Abarbeitung abbricht, mUs..n lokale ZustMnd. und/oder 
Daten gespeichert werden. P^eiterhin ist dies von Vorteil, wenn 
dxa Abarbeitungszeit einer Konfiguration nicht vorhergesagt 
werden kann In Verbindung mit de. bekannten Halteproble. und 
de. K.s.ko, daft eine Konfiguration (z.b. durch einen Pehl=r) 
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gar nicht taxiuiniert, erscheint dies weiterhin sinnvoll, urn 
damit einen Deadlock des gesamten Systems zu verhindern. 
Daher sind vorliegend, unter Berticksichtung von Taskwechseln, 
relevante Zustande auch als solche anzusehsn, die fiXr einen ' 
TaskwechSGl und ein erneutes . korrektes Aufsetzen der Datenver- 
arbeitung notwendig sind. 

Bex einem Taskswitch ist somit der Speicher f(ir . Ergebnisse und 
ggf . auch der Speicher fvir die Operanden zu sichern und zu ei- 
,nem spateren Zeitpunkt, also bei der RUckkehr zu diesem Task, 
wieder herzustellen. Dies kann vergleichbar zu den PUSH/POP ' 
Befehlen und Verfahren nach dem Stand der Technik erfolgen. 
Weiterhin ist der Zustand der Datenverarbeitung zu' sicharn, 
also der Zeiger auf die zuletst vollstandig bearbeiteten Ope- 
randen. Es sei hier besonders auf PACTIS verwiesen. 

Abhangig von der Optimierung des Taskswitches gibt as bei- 
spielsweise zvei Meglichkeiten: 

a) Die abgebrochene Konf iguration wird neu konfiguriert und 

nur die Operanden werden geladen. Die Datenverarbeitung be- 
ginnt so von neuem, als ob die Bearbeitung der Konfigurati- 
on noch gar nicht begonnen wurde. Mit anderen Worten werden 
einfach alle Datenberechnungen von vome an ausgeftlhrt, wo- 
bei ggf. Berechnungen bereits zuvor durchgefuhrt wurden 
Diese Mfiglichkeit ist einfach, aber nicht effizient. 

Die abgebrochene Konfiguration wird neu konfiguriert, wobei 
die operanden und die bereits berechneten Ergebnisse in die 
jeweiligen Speicher geladen werden. Die Datenverarbeitung 
wird bei den Operanden fortgesetzt, die nicht mehr voll- 
standig berechnet wurden. Dieses Verfahren ist sehr viel 
effizienter, setzt aber voraus, dafi ggf. zusatzliche 2u- 
stande, die wahrend der Verarbeitung der Konfiguration ent- 
stehen, relevant werden, etwa wenn zumindest ein Zeiger auf 
die zuletzt vollstandig verrechneten Operanden gesichert 



b) 
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werden muss, damit bei deren Nachfolgern nach erfolgt 
neuer Konfiguration neu aufgesetzt werden karm. 



2.7 Kontext Switch 

Eine besonders bevorzugte Variante zur Verwaltung von relevan- 
ten Daten wird durch den nachfolgend beschriebenen Kontext 
Switch zur Verfagung gestellt. Bei Task-Wechseln und/oder bei 
der AusfUhrung von Konf igurationen und derem Wechsel (siehe 
beispielsweise Patentanmeldung DE 102 OS 653.1, die zu Offen- 
barungszwecken vollumfanglich eingegliedert ist) kann es er- 
forderlich sein, Daten oder Zustande, die typischerweisa nicht 
zusammen mit den Arbeitsdaten in die Speicher abgelegt werden, 
da sie beispielsweise lediglich einen Bndwert markieren, fur ' 
eine nachfolgend© " Konfiguration zusichern. 

Der erfindungsgemaB bevorzugt invplementierte Kontext Switch 
wird derart durchgef ahrt, dass eine erste Konfiguration ent- 
fernt wird und die zu sichernden Daten in entsprechenden Spai- 
chern (REG) (Speicher, Register, ZShler, etc) verbleiben. 

Dann kann eine zweite Konfiguration geladen werden, diese ver- 
bindet die REG in geeigneter Weise und definierter Reihenfoige 
mit einem oder mehreren globalen Speicher (n) . 
..Die Konfiguration kann beispielsweise Adressgeneratoren ver- 
wenden, um auf den/die globalen Speicher zuzugreifen. Es ist 
also nicht erforderlich, vorab jeden einzelnen Speicherplatz 
durch den Compiler festlegen zu lassen und/oder auf als Spei- 
cher ausgestaltete REG zuzugreifen. 

Entsprschend der konfigurierten Verbindung zwischen den REG 
werden die Inhalte der REG in einer definierten Reihenfoige in 
den globalen Speicher geschrieben, wobei die jeweiligen Adres- 
sen von Adressgeneratoren vorgegeben werden. Der Adressgenera- 
tor generiert die Adressen fiir den/die globalen Speicher (n) 
derart, dass die beschriebenen Speicheijbereiche (POSHAREA) der 
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entfernten ersten Konf iguration eindeutig zugeordnet warden 
kOnnen . 

Es warden somit bevorzugt fflr unterschiedliche Konfiguratianen 
unter3chiedliche Adress.enrMume vorgesehen. Die Konfiguration 
entspricht dabei einem PUSH gewShnlicher Prozessoren. 

Danach verwenden andere Konfigurationen die Ressourcen. 

Nun soli die erste Konfiguration ^ieder gestartet werden. Zu- 
vor wird eine dritte Konfiguration gestartet, die die REG der 
er3ten Konfiguration in einer definierten Reihenfolge mitein- 
andex verbindet. 

Pie Konfiguration k^nn »isderum b.ispielsweise fldr^ssgenerato- 
ran v.rwende„ ua auf den Oder die globalen Speichern zu.ugrel- 
fan und/odex um auf al3 Speicher ausgestaltete beg zu.ugrei- 

Ein adressgenerator ganerlert dabel adre«en bevorzugt darart 
da., ein Ico.re.tar Zugriff auf die dax er3t«, Konfiguration ' 
.ugeordnete POSBAREA arfolgt. Die generl.rten Adreasen und die 
tonflguriarte Reihenfolge der REG =ind derart, d,=a die Daten 
der REG in der ursprangllchen Ordnung aus den Speichern in die 
REG geschr.aben werden. Die Konfiguration entspricht eln6n> pop 
gewohnlicher Prozessoren. 



Nun wird die erste Konfiguration wieder 



gestartet. 



Busa^engefaBt „ird .in Kontext switch bevor.ugt derart durch- 
gefuhrt. da.s durch das Laden besonderer IConf igurationen, die 
ahnx.ch von PUSH/POP befcannter Pro.esaorarehitektur.n arbei- 
ten, die ru sichernden Daten mit el„e:a globalen Speicher aus- 
getauacht werden. Pieser Datenaustauach aber giobaie Speicher 
mttels von Push/Pop-Austauschkonf iguationen wird ala b.aon- 
ders rel^evant angesehen- 
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Die Funktion soli in einem Beispiel verdeutlicht - werden: 

Eine Funktion addiert 2 Zahlenreihen, die Lange der Reih^n ist 

zur Obersetzungszeit nicht bekannt, sondern erst zur Laufzeit. 

proc example 

•while i<length do 

= a[i] + b[i] 
i - i + 1 . 

Die Funktion wird nun wahrend iUrer Ausfuhrung unterbrochen^ 
beispielsweise durch einen Task-Switch, oder well der ftir 3? 
vorgesehene Speicher voll ist- a,b^x befinden sich su diesem 
Zeitpunkt erf indungsgemaB in Speichern- i und ggf , length iriiis- 
sen jedoch gesichert werden. 

Dazu wird die Konf iguration eKample termini ert, wobei die Re- 
gistsrinhalte erhalten bleiben und eihe Konf iguration push ge- 
startet^ die i und length aus den Registern liest und in einen 
Speicher schreibt. 

proc push 

mera[<push_adr_eKample>] = i 
push_adr_e??:aiaple++ 
mem[<push_adr_example>l « length 

Nach der Ausfiihrung wird push terminiert und die Registerin- 
halte k5nnen geloscht werden • 

Ander-^ Konf iqurationen werden ausgef tlhru- Nach einiger Zeit 
wird die Konf iguration exaxaple wieder gestartet. 
Zuvor wird eine Konf iguration pc?p gestartet^ die die Registe- 
rinhalte wieder aus dem Speicher liest - 

proc pop 

i « mem[<push_adr_exaniple>] 
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push_aclr_examp 1 e++ 

length = mem[<push_adr_examplQ>] - 

Nach der Ausftthrung wird pop terminiert und die Registerinhal- 
te bleiben bestehen^ Die Konfiguration example wird wieder ge- 
startet. 

2.8 Algorithmische Optimierunq' 

Durch das beschriebene Ubersetzungsverfahren werden Kontroll- 
strukturen von algorithmischen Strukturen getrennt. Beispiels- 
weisQ zerfallt eine Schleife in einen Rumpf (WHILE) und eine 
algorithmische Struktur (Anweisungen) . 

Die algorithmischen Strukturen lassen sich nunmehr bevorzugt 
optional duxch ein zusatzliches^ der Trennung nachgeschaltetes 
Werkzeug optimieren. 

Beispielsweise kann eine nachgeschaltetes Algebra-Softwaxe die 
programmierten .Algorithmen optimieren und minimier-en. Derarti- 
ge Tools sind z.B. unter Bezeichnungen wie AXIOM, MARBLE, etc, 
bekannt. Durch die Minimierung kann eine schnellere Ausfuhrung 
des Algorithmusses und/oder ein erheblich verringerter Platz- 
bedarf erreicht werden. 

Das Ergebnis der Optimierung wird danach wieder in den Compi- 
ler gefuhrt und entsprechend weiterverarbeitet . 
Es soli zudem angemerkt sein, dass moderne Compiler (- 
Frontends) bereits eine Anzahl von Optimierungen fur Algo- 
rithemen (auch z.T. algebraische) implement iert haben^ die 
selbstverstandlich im Rahmen des hier beschriebenen Verfahrens 
weiterhin nutzbar sind. 

Es soli ausdrticklich erwahnt sein, dass die beschriebenen Ver- 
fahren, insbesondere jedoch die Abschnitte 2-2-7 "Umgang mit 
Zeit" und 2.3 ''Makros" auch auf Compiler nach PACTZO' angewen- 
det werden konnen. PACT20 wird diesbeztiglich zu Of f enbarungs- 
zwecken vollumf Snglich in diese Patentanmeldung einbezogen. 

I 
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3, anwendbarkeit fttr Prozegsoren nach ctem Stand, der. Teehnik^ 
Insbesondere mil; VLIW-Arcfaxtektur 

Es soli besonders angemerkt warden^ daB anstatt einer PAE- 
Matrix auch eine Anordnung von arithm^tisch logischen Einhei- 
ten nach .dem Stand der Technik (ALUs), wie beispielsweise in 
VLIW-Prozessoren Oblichr und/oder eine Anordnung von komplet- 
ten Prozessoren/ wie beispielsweise in Multiprosessorsysteiuen 
ablich, verwendet w.erden kann- Ein Sonderfall stellt dabei die 
Verwendung einer einzelnen ALU das^ sodafi das Verfahren auch 
ftir normale CPUs verwendbar ist. 

In der Dissertation [Referenz Dissertation Armin Ntickel] wurde 
ein Verfahren entwickelt^ das die Obersetzung der WHILE- 
Sprache in semantisch korrekte endliche Autoraaten ermoglicht. 
Daruber hinaus kann ein endlicher Automat als "Unterprogramm'' 
verwendet warden und umgekehrt, Dadurch entsteht die Moglich- 
keit, eine Konf iguration auf unterschiedliche Implementie- 
rungstechnologien abzubilden, wie z,B. CPUs; syiraaetrische Mul- 
tiprozessoren; FPGAs; ASICs; VPOs. 

Insbesondere ist es moglich, Teilen einer Applikation die je- ' 
weils optimal geeignete Hardware zuzuordnen bzw. eine jeweilie 
Eignung zu bestimmen und anhand der mehr Oder weniger guten 
Eignung die optimal© Hardware zuzuordnen. Dabei sind bevorzugt 
auch temporare Ressourcenverteilungen und --reservierungeh er- 
faJibar. Mit anderen Wbrten wurde beispielsweise eine Daten- 
fluiistruktur einer Datenf luBarchitektur zugeordnet werden, 
wahrend eine sequentielle Struktur auf einen Sequenzer abge- 
bildet wird^ sofern diese vorhanden und/oder verfugbar sind. 

Die entstehende Problemstellungen der Ressourcehzuweisungen 
fur die einzelnen Algorithiuen konnen z.B. durch einen "Job As- 

t 
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s.ignmenf-Algorithmus zur Verwaltung der Zuordnimg gelost wer- 
clen . 

4 ■ 3aiglemen't±Qnmcr 

Die Implementierung eines erfindungsgemafien Con^jilers soli von 
Qine "normalen" sequentiellsn Prograimniersprache ausgehen, al- 
so 2.B. C Oder Pascal. Diese Sprachen weisen die Eigenschaft 
auf , dass durch ihren sequentiellen Charakter eine zeitliche 
Abfolge implizit und kiinstlich durch die Sprachendef inxtion an 
sich generlert wird. 
Beispiel A: 
Zeile 1 : 'i++ • 
Zeile 2: a =• i * b 
Zeile 3: x = p - a 
Zeile 4: j '= i * i 

Durch die Sprachdefinition ist fest voxgegeben, dass Zeile 1 
vor Zeile 2 vor Zeile 3 vor Zeile 4 ausgeftlhrt wird. Aller- 
dings kOnnte Zeile 4 auch direkt nach Zeile 1 ausgeftlhrt war- 
den und somit parallel zu Zeile 2 und 3 bearbeitet werden. 

Mit anderen Worten werden durch sequentielle Sprachen weitera 
ktinstliche und nicht algorithmisch bedingte Zustande einge- 
baut. Wichtig ist lediglich die korrekte zeitliche Abfolge der 
Berechungen in Beispiel A. Zeile 4 darf erst berechnet werden, 
wenn i korrekt definiert ist, also nach der Abarbeitung von 
zeile 1. Auch Zeile 2 darf erst nach der korrekten" Definition 
von i (also nach der Abarbeitung von Zeile 1) verarbeitet wer- 
den. Zeile 3 benstigt die Ergebnisse von Zeile 2 (die Variable 
a) und darf daher erst nach derer korrekten Definition berech- 
net werden. Somit ergibt sich eine Datenabhangigkeit aber kei- 
ne besonderen Zustande. 



Anhand der Datenabhangigkeiten der Variable a in Zeile 2 und 3 . 

(Zeile 3 verwendet a als Operand, a ist das Brgebnis von Zeile 

» 
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2) kann automatisch durch den Compiler folgende Transformation 
zur Representation der Parallelisier- bzw. Vektorisierbarkeit 
(ParVQc-Transfomation) durchgeftihrt werden: 

Zeile 2: VEC{a = i * b; 
Seile 3: x = p - a) 

VEC bedeutet, dass jeder durch getrennte Ausdruck nachein- 

ander abgearbeitet wird, wobei die AusdrQcke innerhalb der ge- 
schweiften Klammern grundsatzlich gepipelinet werden k5nnen. 
Bevorzugt mtissen samtliche Berechnungen am Ende von VEC{} 
durchgefahrt und abgeschlossen sein^ damit die Datenverarbei- 
tung hinter VEC fortgesetzt wird- 

Besser wird in einer internen Reprasentation der DatenstruktU- 
ren im Compiler die beiden Berechnungen als eln Vektor mar- 
kiert : 

VEC{a=i*b; x-p-q} 

Zeile 4 ergibt einen einfachen Vektor; 
VECfj - i*i} 

Da sich Zeile 4 gleichzeitig zu Zeile 2 und 3 berechnen lasst 
kann die Parallelit^t folgendermassen ausgedrtickt werden: 

PAR{{VEC{a=i*b; x^^-a} ;VEC{j=i*i} } 



PAR bedeutet, dass jeder durch M--}' getrennte Ausdruck zeit- 
gleich abgearbeitet werden kann. Bevorzugt mUssen samtliche 
Berechnungen am Bnde von PAR{ } durchgefOhrt und abgeschlossen 
sein, damit die Datenverarbeitung hinter PAR fortgesetzt wird. 

wirc^ Zeile 1 mit einbezogen^ ergibt sich; 
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VEC{i++; PAR{ {yEC{a«i*b; x=p-a} } { VEC{ } ) } 

Da VEC(*j«i*i} ein Vektor mit nur einem Element darstellt, kann 
auch wir folgt geschrieben werden: 

VECU++; PAR{{VEC{a=i*b; x-p-a} } { j=i*i} ) } 



Ein weiteres Belspiel zeigt einen echten Zustand- 

^ 

Belspiel B: 
Zeile 1: i++ 
Zeile 2: a = i * b 
Zeile 3: if a < 100 { 
• Zeile 4: ••x=p-a 
Zeile S: } else { . 
ZeilQ 6: ^ ^ i * ± y 

Jetzt kann Zeile 6 nur noch nach der Berechnung von Zeile 2 
und Zeile 3 ausgeftihrt werden. Die Berechnung von Zeile 4 und 
6 findet alternativ statt. Also ist der Zustand von Zeile 3 
fUr die weitere Datenverarbeitung relevant (relevanter Zu- 
stand) . 

Bedingte Zust^nde konnen bei einer Transformation durch IF 
ausgedrQckt werden: 

. Zeile 1-2: VBC{i++; a=-i*b} 

.Zeile 3: IF{ (a<100 } { zeile4 } { zeileS} } 

Zeile 4: VEC{x=P'-a} 

Zeile 6r VEC{j«i*i} 

ZusammengefaJBt ergibt das 

VEC{i++; a=i*b; IF{ {a<100 } { VEC{x=p^a} } {VEC ( j=i*i) } } ) 

i 

# 
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Weitere relevante Zustande werden durch Schleifen erzeugt: 
Beispiel C: 

Zeile 1: for (i « 1, i< loo, 
Zeile. 2: a = a * i 

Zeile 3: q = p / a 

Zeile 3 darf erst ausgeftlhrt werden, nachdem die Schleife ter 
miniert ist. Also bestehen bei bedingten Sprttngen relevante 
Zustande . 

^ 

Eine erste Transformation der Schleife ergibt: 
Zeile Ir 1=1; 

Zeile 2: loop: if i >= loo then exit 
Zeile 3 : a a * i 

Zeile 4: i++ 
Zeil© 5: jump loop 

Zeile 6: exit: q =» p / a . 

zeile 3 und 4 kennen parallel berechnet werden, da Zeile 4 
nicht vom Ergebnis von Zeile 3 abhangt:' 

PAR{{a=a*i} {!++}} 

Zeile 5 ergibt einen Vektor mit dem generierten PAR, da erst 
nach vollstandiger Berechnung der Werte wieder in die Schleife 
gesprung^n werden darf (hier liegt also eine zeitliche Abhan- 
gigkeit vor) . 

VEC{PAR{{a-=a*i}fi-t-i-)>; :)uinp loop} 
Somit ergibt sich far die Bedingung; 

loop: lFHi>=100}{jump exit) {VEC{PAR{ (a=a*i} {i++} jump 
loop)}} 
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Die Zeile 1 iat ein Vektor mlt der Bedingung, da diese ^or der 
Bsdlngung ausgeftihrt werden muss (IP verwendet-i als Operand, 
i ist das Ergebnis von Zeile 1) . 

zeile 6 ist ».iederum ein Vektor mit der Bedingung, da a als 
Operand verwendet wird und a das Ergebnis der Bedingung ist. 

Somit ergibt sich (in tibersichtlicher Schreibweise) - 
VEC{ 

i++; 

loop: IF{ 

{i>=100} 
{jump exit) 
{VEC{ 

PAR{ 

{a=a*i) 
{i++} 

}? 

Jump loop 
} . 

} 

},- - 

exit: q=p/a 



Die InhaXt, von VEC( ) und PARn k8„nen als ..i„ to„*ln«ori- 
sche Netze betrachtet werden. 

Bevorzugt wird VEC und FAR ale Petri-Netz ausgestaltet, wie 
bevorzugt die Weiterverarbeitung nach kompletter Verarbeitung 
der jeweilgen Inhalte zu steuern. 

Durch die znagliche Betrachtung von VEC und'pAR als rein ko„0=i- 
natorisches Netz entsteht die Notwandigkeit den Schleifenzu- 
stand .u sichern. D.h. in diesem Fall ist es tatsSchlich not- 
wendig einen andlichen Automat en zu schaffen.- • 
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Die Anweisung REG{} speichert dazu Variablen in einem Regi- 
ster. Somit entsteht durch die Verwendung der kombinatorischen 
Net^e VEC und PAC in Verbindung mit deiu Register REG ein end- 
licher Automat, der exakt entsprechend des Algorithmus aufge- 
baut ist: 



VEC{ 



i++; 

loop; IF{ 

{i>=100} 
{jump exit} 
{VEC{ 

PAR{ 

'{a«=a'^i} 
{i++) 

}f 

RBG{a/l} 
jump loop 
*> 

> 

}; 

exit : q-p/a 



) 



Es soli besonders darauf hingewiesen werden^ dass in der vpu 
Technologie des Anmelders (vgl. PACT21) Ein- und/oder Aus- 
gangsregister an dsn PAEs vorgesehen sind und die zeitliche 
Korrektheit und die Verfugbarkeit von Daten durch ein inte- 
griertes Handshake-Protokoll (RDY/ACK) sichergestellt ist. In- 
soweit wird die Forderung bevorzugt beiiu Verlassen von VEC{} 
Oder PAR{} deren interne Datenverarbeitung abgeschlossen zu 
haben automatisch fUr alls nachfolgend verwendeten Veriablen 
erflillt (ware die Datenverarbeitung nicht beendet, warden 
nachfolgende Berechnungsschritte auf die Beendigung und das 
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Eintref fen der Daten warten) > Durch die integrierten Register 
sind auch schwingende Rackkopplungen ausgeschlossen. 

Insoweit ist naciifolgend©r Term ftir dies© Technologie korrekt: 
VEC{PAR{{a=a*i} fi++l}; jump loop} 

Fur andere Technologien, die die o.g. Ausgestaltungen nicht 
Oder nur teilweise aufweissHr sollte der Term folgendermassen 
formuliert werden: 

VEC{PARUa«a*i} {i++}>; REG{a;i>; jump loQp> 

Es soli darauf hingewiesen werden, dass diese Form auf jeden 
Fall auch in der VPU-Technologie des Anmelders zu einer kor- 
rekten und optixaalen Abbildung des Algorithmus auf den rekon- 
figurierbaren Prozessor fUhrt. 

REG kann innerhalb der koinbinatorischen Netze VEC und PAR ver- ' 
wendet warden. Strang betrachtet verlieran dadurch VEC und PAR ' 
die Eigenschaft der koinbinatorischen Netze. Abstrakt kann je- 
doch REG als ein komplexes Element (REG-Element ) eine3 kombi- 
natorischen Netzes betrachtet werden, dem eine eigene Abarfaei- 
tungszeit zugrunde liegt. Die Bearbeitung dar nachf olgenden 
Blemente wird vom der Beendigung der Berechnung des REG- 
Elementes abh^ngig gemacht. 

In dem Bewusstsein dieser begriff lichen IJngenauigkeit wird ei- 
ne Verwendung von REG innerhalb von VEC und PAR im Weiteren 
zugelassen und ist insbesondere auch notwendig. 

Wie bereits vorstehend erwahnt, ist die Verwendung von REG ty- 
•pispherweise innerhalb einer* Konfiguration einer VFU des An- 
melders nicht erforderlich, sondern eKplisit iramer nur dann^ 
wenn die Berechnungsergebnisse einer Konfiguration abgespei- 
chert werden, sodass REG ein diesem Anwendungsf all tatsSchlich 
dem explisiten Register eines endlichen Automaten entspricht. 
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Neben cier Synthase von endlichen Automaten fGr Schleifen, sind 
insbesondere in einem weiteren Fall endliche Automaton erf or- 
der lich: 

1st ein Algorithmus zu groB, urn kompiett innerhalb der PAEs 
eines rekonfigurierbaren" Prozessors abgearbeitet zu werden, 
itiuB er in inehrere Teilalgorithmen aerlegt werden. Jeder Tei- 
lalgorithmus stellt eine Konfiguration fttr den rekonfigurier- 
baren Prozessor dar. Nacheinander, also sequentiell, werden 
di© Teilalgorithmen auf den Prozessor konf iguriert , wobei die 
Ergebnisse der jeweils vorhergehenden Konfiguration (en) far 
die jeweils neue Konfiguration als Operanden dienen. 

Mit anderen Worten entsteht durch die Rekonf iguration ein end- 
licher Automat, der zu einem Zeitpunkt t Daten bearbeitet und 
speichert und zu einem Zeitpunkt t+l, mSglicherweise nach ei- 
ner Konfiguration, die gespeicherten Dateh ggf . anders verar- 
beitet und wieder speichert. Wesentlich ist, dass t nicht im 
klassischen Sinn durch Takte oder Befehle definiert wird, son- 
dem durch Konf igurationen. Hierzu sein besonders die Presen- 
tation Prozessormodsll (PACT, Oktober 2000, San Jose) referen- 
ziert - 

Mit noch anderen Worten faesteht eine Konfiguration aus sinem 
kombinatorischen Netz aus VEC und/oder PAR, dessen Ergebnisse 
gespeichert warden (reg) , um in der nachsten Konfiguration 
weiterverwendet zu werden; 

Konfiguration 1 ; VEC{0perand5; {VEC | PAR) ;REG{Resultsl ) } 
Konfiguration 2: VEC{RQsultsl; {VEC 1 PAR} ;REG{Results2} ) 

. Zum einfacheren Verstandnis haben die obigen Beispiels und Be- 
schreibungen die Konstrukte VEC, PAR und REG in der Hochspra- 
chen eingefOhrt und diese dadurch strukturiert.^Typischerweise 
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und bevorzugt wird diese Strukturierung erst aber auf der Ebe 
ns der Zwischensprache (siehe Principles of Compiler Design 
(Red Dragon), Aho, Sethi, Ullmann) eingeftihrt. 
Es soli besondera darauf hingewiesen warden, dass die Strulctu- 
rierung von Algorithxuen rait VEC, par und REG typischerweise 
vollkoiamen automatisch durch den Compiler durch Methoden wie 
z.B. Graphenanalyse durchfUhrbar ist. 

insbesondere 1st ,s auch denJ<bar „„d teilw.ise von v«- 

teU Progranualerer selb=t di, StrufcturierungsmSgllohkelt 

d„ Hochsprache dadurch .u e^e^ichen, das. VEC. .p«k und 
REG w.e Oban aufge.elgt dlrakt in de. Hochaprach, beschrelbbar 



^Dla automatiacha Bratallung v=n VEC, par und beg kann ,„f un- 

■^r. Co^iaierun,av=r,an,ea durchga- 

, f«h.t .erdan. cia .un.chst einlauchtendsta iat „.hrend ainea 
P«pro.e3aor-D«*laufaa auf Basis das Source-Codaa »ia in d=„ 
d"" Baiapialan basc..iebe„. r.r dia waiter Co^iiia^, 

Ein wei.ara. ;.apa.t ist. dass Co^piiar zu^ist auto^tischa 

fizxanta Zerlagun^ das Codas i.t dahar a.st nach dan Optl^ia- 
.un,slau.an ainnvoii, i„sbasonda.a wann Co^piia. ,„ia^.B 
SHIP. Onxvara.tat Stanford, bareits dan Coda for Parallelisi- 
sa^ung und/odar Vactorisierung hin optimieran. 

Dia daher baacndars bavor^ugta Mathoda ist dia Einblndung dar 
Analysan in das Bao.end ainas Con^ii..s. Oas BaCand abaLat" 
a.na co^p.larintarna DatanstruHtur au* die Bafahla ainas Lai- 
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Als compilerinterne Datenstrukturen werden zumaist Zeiger- 
strukturen wie DAGs/GAGs, Trees Oder 3-Adre3s-Codes verwendet 
(siehe Principles of Compiler Design (Red Dragon), Aho, Sethi, 
□llmann) , Teilweise warden auch Stack-Machine-Codes verwendet 
(siehe Compiler selbstgeschneidert, C'T 1986 1-5) . Da die Da- 
tenformate prinzipiell aquivalent sind und ineinander trans- 
formian: werden konnen, setzt die erf indungsgemafi bevorzugte 
Methode auf der Weiterverarbeitung von Graphen, wie bevorzugt 
Trees, auf. 

Datenabhangikeiten und mOgliche Parallelitaten entsprechend 
dem vorstehend beschriebenen Verfahren sind innerhalb von 
Trees einfach auf Basis der Struktur automatisch zu erkennen. 
Hierzu kSnnen beispielsweise- bekannte und etablierte Verfahren 
der Graphenanalyse eingesetzt werden. Alternativ oder optipnal 
kann durch entsprechend adaptierte Parsingiaethoden ein Algo- 
rithmus auf Datenabhangikeiten, Schleifen, Spriinge etc. bin 
untersucht werden. Dabei kann ein Verfahren ahnlich dem der 
Auswertung von Ausdrtlcken in Compilern verwendet werden. 

Abbildun^ 



Die weitere Transformation des Algorithmus ist nunmehr stark 
von der Zielarchitektur abhangig. Beispielsweise bietet die 
Prozessorarchitektur des Anmelders (VPU, XPP) automatische Da- 
tensynchronisation in Hardware. Das bedeutet, dass die korrek- 
te zeitliche Abfolge von Datenabhanglgkeiten automatisch in 
der Hardware gehandhabt wird. Anders Architekturen bendtigen 
zum Teil zusatzlich die Synthese geeigneter Zustandsmaschinen 
ftir die Steuerung es Datentransf ers . 

Besonders interessant ist die Handhabung bsdingtar Sprtlnge. 
Beispielswiese stellt die Prozessorarchitektur des Anmelders 
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mehrere Mechanismen zu derer Abbildung und Ausfiihrung zur Ver- 
fxigung : 

1- Rekonfiguration des Prozessors oder Teilen des Prozessors 
durch eine Ubergeordnete Konf igurationseinheit (vgl. Patentan- 
ineldung(en) PAGTOl, 04, 05, 10, 13, IT) 

2. Auswalzen der Funktion in das Array aus PAEs (vgl. Pa- 
tentaraneldung PACT08), dabei werden z-B. beide moglichen Zwei- 
ge eines Vergleiches zugleich auf das Array abgebildet. 

3. Wave Rekonf iguration nach Patentanmeldung (en) PACT08, 13, 
17)^ dabei wird den unterschiedlich zu bearbeitenden Daten ein 
Token mitgegeben, das die jewQils gultige Konf iguration wShlt. 

Es soli erwMhnt sein, dass der Mechanisiuus 1 der allgemein ty- 
pisch ansuwendende Fall ist- Der Mechanismus 2 ist bereits bei 
den meisten Technologien sehr aufwendig oder gar nicht imple- 
mentierbar und der Fall 3 ist bislang nur aus der VPU- 
Technologie des Amuelders bekannt. 

Die jeweils zu wahlende Ausftihrungsmethode hSngt von der Kom- 
plexitat des Algorithmus, dem erf orderlichen Datendurchsats 
(Performance) und der exakten Ausgestaltung des Zielprozessors 
ab (z-B. Anzahl der PAEs) . 
Beispiele: 

Ein einfacher Vergleich soil folgendes Berechnen: 
if i < 0 then a«a* (-i) else a=a*i 

Eine Refconf iguration des Prozessors (Mechanismus 1) je nach 
Ergebnis des Vergleichs scheint wenig sinnvoll zu sein. 
Das Auswalzen balder Zwiaigs in dass Array (Mechanismus 2) ist 
Grundsatzlich m5glich- Je nach Ergebnis des Vergleichs werden 
entweder die a=«a* (-ij oder a=a*i berechnenden PAEs angesteuert 
(vgl. PACT08) . 

Besonders platzef f izient ist das Oberlagern der beiden Berech- 
nungen (Mechanismus 3) ^ wodurch nach dem Vergleich unabhangig 
vom Ergebnis dieselbe(n) PAEs/^die Daten weiterverarbeiten, die 
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Daten aber mit einem Token ^ersehen sind, das sodann in Abhan- 
gigkeit vom vergleich lokal in den jeweils nachfolgenden die 
Daten verarbeitenden PAEs entweder die Funktion a«a*(-i) oder 
a=a*i auswahlt. (vgl. PACT08, 13, 17). 

Nach Mechanismus 1 entsteht ein global relevanter Zustand, da 
die koinplette folgende Konf iguration davon abhangig 1st. 

Nach Mechanismus 2 und 3 entstehen nur ein lokal relevanter 
Zustand, da dieser tlber die Berechnung hinaus - die vollstan- 
dig implement iert ist - nicht mehr benatigt wird. 

Mit anderen Worten kann die lokale oder globale Relevant von 
Zustanden auch von der gewShlten Abbildung auf die Prozessor- 
architektur abhangen. 

Ein Zustand der aber eine Konf iguration hinaus und somit tiber 
das koiribinatorische Netz des eine Konf iguration reprSsentie- 
renden endlichen Automaton hinaus relevant ist (also von nach- 
folgenden endlichen Automaten benOtigt wird) kann grundsatz- 
lich als global betrachtet werden. Es soli nochmals auf die 
verwendete diffuse Terminologie des Begriffes kombinatorisches 
Netz hingewiesen werden. 



Sefehlsinodell des entestandenen ggo zessora 

Entsprechend der vorliegenden Erfindung entsteht ein Prozes- 
sormodell far rekonf igurierbare prozessoren, das alle wesent- 
Lichen Befehle lamfaBt:. 

».irit:hmetisch/loaiseh6 Befehle werden direki: in das J^ombinato- 
rische Netz abgebildet. 

spT-fin qe (Juiup/Call) warden entweder direkt in das kombinatori- 
sche Netz ausgewalzt oder durch Rekonf iguration realisiert. 
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Bedln tiling unci KontrollfluBbefehle (if ^ etc) werden entweder im 
kombinatorischen Netz volistandig aufgelost und bearbeitet 
Oder' an ©in© iibergeordnete Konfigurationseinheit weitergelei- 
tet^ die sodann entsprechend des entstandenen Status eine Re- 
konf iguration durchf uhrt , . 

Load/St ore-OperationQn werden bevorzugt in separate Konfigura- 
tionen abgebildet und durch Adressgeneratoren ahnlich den be- 
kannten DMA' s realisiert, die internen Speicher {REG{}) mit:- 
tels Adressgeneratoren in extern© Speicher schreiben oder die- 
se von externen Speichern und/oder Peripherie laden. Sie k5n- 
nen aber auch zusainitien mit der datenverarbeitenden Konfigura- 
tion konfiguriert seih und arbeiten. 

Register-Move-Operationen werden im kombinatorischen Netz 
durch Busse zwischen den internen Speichern (REG{}) reali- 
siert. 

Push/ Pop-Operat ionen werden durch separate Konf igurationen 
realisiert^ die ggf . bestimmte interne Register im kombinato- 
rischen Netz und/oder die internen Speicher (REG{}) mittels 
Adressgeneratoren in externe Speicher schreiben oder aus ex- 
ternen Speichern lesen und die bevorzugt vor Oder nach dan ei** 
gentlichen datenverarbeitenden Konf igurationen ausgefUhrt wer- 
den. 

5, BesclireAbTang d.er Flguron 

Die nachfolgenden Figuren zeigen Implementierungs- und Ausge- 
staltungsbeispiele des Compilers. 

Pxgur la zeigt den Aufbau eines gewShnlichen endlichen Automa- 
ten, bei welchem ein kombinatorisches Netz (0101) mit einem 
Register (0102) verknQpft ist. Daten kannen direkt an 0101 
(0103) und 0102 (0104) geftthrt werden. Durch eine Rlickkopplung 
(0105) des Registers auf das kombinatorische Netz ist die Ver- 
arbeitung eines ZSustandes in Abhangigkeit des/der vorhergehen- 

*i 
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den Zustande moglich. Die Verarbeitungsergebnisse warden durch 
0106 dargestellt. 

Figur lb zeigt eine ReprSsentation des endlichen Automaten 
durch eine rekonf igurierbare Architektur nach PACTOl und 
' PACT04 CPACT04 Fig. 12-15) . Das kombinatarischen Nets aus Fi- 
gur la (0101) wird durch eine Anordnung von PABs 0107 ersetzt 
(0101b) . Das Register (0102) wird durch einen Speicher (0102b) 
ausgefilhrt, der mehrere Zyklen speichern kann. Die RUckkopp- 
lung geinSB 0105 erfolgt durch 0105b. Die Eing^nge (0103b bzw. 
} 0104b) sind Equivalent 0103 bzw 0104. Der direkte Zugrtff auf 

0102b kann ggf- durch ^inen Bus durch das Array 0101b real!- 
siert werden. Der Ausgang 0106b ist wiederum Squivalent 0106. 

Figur 2 zeigt die Abbildung eines endlichen Automaten auf eine 
- rekonfigurierbare Architektur. 0201 (x) reprSsentieren das kom- 
binatorische Netz (das entsprechend Figur lb als PAEs ausge- 
staltet sein kann) . Es existieren ein Oder mehrere Speicher 
fiir Operanden (0202) und ein oder mehrere Speicher fUr Ergeb- 
nisse (0203) . EusStzliche Daten Ein-/Ausgange gem. 0l03b^ 
0104b, 0106b) sind der Einfachheit halber nicht dargestellt. 
Den Speichern zugeordnet ist jeweils ein Adressgenerator 
(0204, 0205) . 

Die Operanden- und Ergebnisspeicher (0202, 0203) sind physika- 
lisch Oder virtuell derart miteinander verkoppelt, dajB bei-- 
spielsweis© die Brgebnisse einer Funktion bzw, einer Opera-- 
tion einer anderen als Operanden dienen konnen und/oder sowohl 
Ergebnisse als auch neu suggfimrtiQ oparandan ©in^ar Funktion 
einer anderen als Operanden dienen konnen. Eine derartige 
Kopplung kann beispielsw<s!ise durch Bussystexa^a hergestell-t war- 
den Oder durch eine (Re) Konf iguration durch welche die Funkti- 
on und Vernetzung der Speicher mit den 0201 neu konfiguriert 
wird- 

* I • 
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Pigxtr 3 zeigt verschiedene Aspekte zum Umgang itiit Variablen, 
In Figor 3a zeigen-OSOl, 0302, 0303 verschiedene Stufen der 
Berechnung. Diese Stufen kOnnen rein korabinatorisch oder auch 
tiber Register voneinander getrennt sein, fl, f2, £3 sind Fiink- 
tionen, xl ist eine Variable gemafi Patentbeschreibung. 
Fig^ 3b zeigt die Verwendung einer Variablen xl in der Funk- 
tion xl := xl + !• 

Figur 3c zeigt das Verhalten eines endlichen Automaten zur Be- 
rechnung von xl xl + 1 innerhalb einer Konfiguration. In 
der nachsten Konfiguration sind 0306 und 0304 • zu vertauschen 
um einen vollstandigen endlichen Automaten zu erhalten. 0305 
reprasentiert die Adressgeneratoren fUr die Speicher 0304 und 
0306. 

Figur 4 zeigt Implement ierungen von Schleifen. Die schraffier- 
ten Module konnen durch Makros generiert werden (0420, 0421) . 
0421 kann auch durch Analyse des Graphen auf unverzogerte 
Ruckkopplungen eingefxigt werden- - ' " * 

Figur 4a zeigt die Implementierung einer einfachen Schleife 
der Art 
WHILE TRUE DO 

xl xl + 1; 

Iiu Kern der Schleife liegt der Zahler +1 (0401). 0402 ist ein 
Multiplexer, der zu Beginn den Startwert von xl (0403) auf 
0401 ftihrt und sodann bei jeder Iteration die Ruckkopplung 
(0404a, 0404b) bewirkt. In die RUckkopplung ist ein Register 
(vgl. REG{}) (0405) eingesetzt, um eine unverzogerte und damit 
unkontrollierte Rtickkopplung des Ausgangs von 0401 auf dessen 
Eingang zu verhindern. 0405 wird mit dem Arbcitstakt der VPU 
getaktet und bestdLmmt damit die Anzahl der Iterationen pro 
Zeit. Der jeweilige Zahlerstand wSre an 0404a odeir 0404b alp- 
greifbar- Je nach Definition der Hochsprache tenoiniert die 
Schleife jedoch nicht. Beispielsweise ware in einer HDL (nach 
dem Stand der Technik (z,B- VHDL, Vsrilog) das Signal auf 0404 
nutsbarr wshrend es in einer sequentiellen Frograininierspraihe 
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(z.B. C) 0404 nicht nutzbar ist, da die Schleife nicht termi- 
niert und somit keinen Exit-Wert liefert, 

Der Multiplexer 04 02 realisiert ein Makro, das aus deia Schlei- 
fenkpnstrukt entstanden ist. Das Makro wird durch die Obarset- 
sung von WHILE instantiiert • 

Das Register 0405 ist ©htweder ebenfalls Teil des Makros oder 
wird entsprechend einer Graphenanalyse nach dem Stand der 
Technik exakt dann und dort eingeftigt, wo eine unverzOgerte 
Rxickkopplung existiert^ urn so die Schwingneigung auszuschal- 
ten- 

Pigur 4b zeigt den Aufbau einer echten Schleife der Art 
WHILE xl < 10 DO 
xl := xl + 1; 

Der Aufbau entspricht im Kern der Figur 4 a,, weshalb dieselben 
Referenzen vei^wendet wurden* 

Zusatzlich ist eine Schaltung dargestellt, die die Gaitigkeit 
des Ergebnisses kontrolliert (0410) und das Signal von 0404a 
nur dann an- die nachf olgenden Funktionen (0411) weiterleitet, 
wenn das Abbruchkriteritan der Schleife erraicht ist. Das Ab- 
bruchkriteriuro wird durch den Vergleich xl < 10 festgestallt 
(Vergleichs5tufe 0412) . Als Ergebnis des Vergleiches wird das 
betreffende Statusflag (0413) an ein Multipliziermittel 0402 
zur Steuerung der Schleife und die Funktionen 0411 zur Kon- 
trolle der Ergebnisweiterftihrung geleitet. Das Statusflag 0413 
kann beispielsweise durch Trigger gemSB DE 197 04 728-9 iiuple- 
mentiert sein. Ebenfalls kann das Statusf lagmittel 0413 an ei- 
ne CT gesendet werden^. die daraufhin die Terminierung der 
Schleife erkennt und eine Rekonf iguration durchfahrt. 

Figur 5a zeigt die iterative Berechnung von 
FOR i:=l TO 10 

xl := Xl * xl; 

Im wesentlichen entspricht die Grundfunktion Figur 4b, weshalb 
die Referenzen ubernoinmen warden. Der Funktionsblock 0 501 be- 
rechnet die MultiplikarionJ Die FOPv-Schleif e wird durch eine 
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weitere Schleife entsprechend Figur 4t) implementiert und ist 
lediglich durch Block 0503 angedeutet. Block- 0503 liefert den 
Status des Vergleiches auf das Abbruchkriterium. Der Status 
wird direkt zur Ansteuerung der Iteration verwendet^ wodurch 
das Mittel 0412 (dargestellt durch 0502) weitgehend entfallt. 

Pigur 5b zeigt das Auswalzen der Berechnung von 
FOR i:«l TO 10 

xl xl * xl; 

•) Da die Anzahl der Iterationen zur Obersetzungszeit- exakt b©- 

kannt ist^ kann die Berechnung in eine Folge von i Multipli- 
zierern (0510) abgebildet werdon. 

Figur 6 zeigt die Ausftlhrung einer WHILE-Schleif e geia. Figur 
4b Uber mehrere Konf igurationan^ Hi©r ist der Zustand der 
Schleife (0601) ein relevanter Zustand^ da dieser die FunTction 
in den nachf olgenden Konf igurationen xnafigeblich beeinflufit . 
Die Berechnung erstreckt sich iiber 4 Konf igurationen (0602 » 

0603, 0604, 0605) . Zwischen den Konf igurationen werden die Da- 
ten in Speichern (vgl. RBG{}) abgelegt (0606, 0607). 0607 er-- 
setzt dabei ebenfalls 0405. 

Als ein Rekonf igurationskriterium kann der Ftillstand der Spei- 
cher dienen, angedeutet Uber 0606, 0607: Speicher voll/leer- 
und/oder 0601, das den Abbruch der Schleife anzeigt. Mit ande- 
ren Worten werden durch den Fullstand der Speicher Trigger ge- 
neriert (vgl. PACTOl, PACT05, PACT08, PACTIO) , die an die Kon- 
f igurationseinheit gesendet werden und eine Re kon figur at ion ' 
auslosen. Auch der Zustand der Schleife (0601) kann an die CT 
gesendet werden. Daraufhin kann die CT bei Erreichen des Ab- 
bruchkriteriums die nachf olgenden Algorithmen konf igurieren, 
bzw^ ggf . zunSchst die restlichen Teile der Schleife (0603, 

0604, 0605) abarbeiten und danach die nachf olgenden Konfigura- 
I tionen laden. 
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6 . gf^rallelxslerbarfcexi^ 

Figur 6 zeigt potentielle Grenzen der Parallelisierbarkeit 
auf . 

Sofern die Berechnung der Operanden unabhangig von der RUck- 
• kopplung 0608 ist^ kann die Schleife blockweise, d.h- jeweils 
durch Fallen der Speicher 060 6/0607 berechnet werden, Damit 
wird ein hoher Grad an Parallelitat erreicht. 

Sofern die Berechnung eines Operanden abhangig von dem Ergeb- 
nis der vorherigen Berechnung ist, also eine Ruckkopplung Qder 
dergleichen 0608 in die Berechnung einfliefit, wird das Verfah- 
ren inef fizi enter ^ da jeweils nur ein Operand innerhalb der 
Schleife berechnet werden kann. 

Ist der nutzbare ILP (Instruktionslevel Parallelismus) inner- 
halb der Schleife hoch und die Zeit fttr die Rekonf iguration 
nieder (vgl. PACTOZr PACT04^ PACT13, PACT17), kann eine auf 
PAEs ausgewalzte Berechnung auf einer VPU weiterhin effizient 
sein. 

I3t dies nicht der Fall, ist es sinnvoll, die Schleife auf ei- 
ne sequentielle Architektur (vcm PA separater Prozessor oder 
Iniplsinent:ier\ang innerhalb des PA entsprechend DE 196 51 075.9- 
53, DE 196 54 846,2-53 und insbesondere DE 199 26 538.0 (Fig. 
5, 11, 15, 17, 23, 30, .31, 33)) abzubilden. 

Die Analyse der Berechnungsseiten kann entweder im Compiler 
zur Obersetzungszeit gemaB dem nachf olgenden Abschnitt erfol- 
gen und/oder empirisch zu der oder einer Laufzeit gemessen 
werden, urn eine nachtragliche Optimierung herbeizuf ahren, was 
zu einem lernf ^.higen, insbesondere selbstlernenden Compiler 
fahrt, 

I 
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FUr die Erfindung sind Analyse- und ParallelisierangsVerfahren 
von Bedeutung. 

Verschiedene Verfahren nach dem Stand der Technik stehen far 
die Analyse und Durchftihrung der Parallelisierung zur Verfti- 
gung . 

Ein bovorsugtes Verfahren soli im Folgenden beschrieben wer- 
den- 

Abzubildende Funktionen warden durch Graphen dargestellt (vgl. 
PACT13; DE 199 26 538,0) r wobei eine Applikation aus beliebig 
vielen unterschiedlichen Funktionen zusammengesetzt sein kann- 
Die Graphen werden auf die in ihnen enthaltene Parallelitat 
untersucht^ wobei vorab sM.nitliche Methoden der Optimierung zunv 
Einsatz koinmsn konnen. 

Beispielsweise sollen folgende Untersuchungen durchgefUhrt 
werden: 



6.0-1 ILP (Instruction Level Parallelism) 

ILP druckt aus, welche Befehle zeitgleich ausgefuhrt werden 
k©nnen (vgl. PAR{}), Eine derartige Analyse wird auf Basis der 
Betrachtung von AbhSngigkeiten von Knot en in einem Graphen 
einfach mcJglich. Entsprechende Verfahren sind nach dem Stand 
der Technik und in der Mathematik per se hinreichend bekannt, 
@s soli beispielsweise auf VLIW-Compiler und Synthesetools 
verwiesen werden. 

Besondere Beachtung benotigen aber z. B- gegebenenfalls ver-- 
schachrelte bQdingte Ausfuhrungen (IF) r da eine korrekte Aus- 
sage der parallel ausftlhrbaren Pfade oftmals kaum oder nicht - 
zu treffen ist, da eine starke Abh^ngigkeit v^m Werteraum der 
einzelnen Parameter besteht, der oftmals nicht oder nur unzu- 
reichend bekannt ist. Auch kann eine exakte Analyse derart 
viel Rechenzeit in Anspruch n.ehmenr daJB sie nicht mehr sinn- 
voll durchfdhrbar ist. 
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In derartigen FSllen kann beispielsweiSG die Analyse durch 
Hinweise- vom Prograromierer vereinfacht werden und/oder es kann 
anhand entsprechender Compilerschalter derart: gearbeitet wer- 
den^ daiJ im Zweifelsfall entweder von einer hohen Paralleli- 
sierbark^it (ggf • unter Verschwendung von Rsssourcen) Oder von 
einer niederen Parallelisierbarkeit (ggf • unter Verschwendung 
von Performance} ausgegangen werden soil. 

Ebenf alls kann in diesen Fallen sine empirische Analyse zur 
Laufseit durchgeftihrt werden. Nach PACTIO, PACT17 sind Verfah- 
ren bekannt, die zur Laufzeit die Erstellung von Statistiken 
Ober des Prcgrammverhalten erlauben. Derart kann z. B. zu- 
nSchst von einer maximalen Parallelisierbarkeit ausgegangen 
werden. Die einzelnen Pfade geben Meldungen an eine Stati- 
stikeinheit (z. B. implementiert in einer CT oder einer ande- 
ren Stufe,vgl. PACTIO, PACT17, 'grundsStzlich kOnnen aber auch 
Einheiten nach FACTO 4 verwenden werden) Uber jeden Durchlauf 
zurtick. Mittels statistischer MaBnahmen ist nunmehr auswert- 
bar, welche Pfade tatsachlich parallel durchlauf en werden. 
Weiterhin ergibt sich die Mttglichkeit, anhand der Daten zur 
Laufzeit zu bewertenr welche Pfade hSufig Oder selten oder nie 
parallel durchlaufen werden, Diese Art der Pf adnutzungsmeldung 
ist nicht zwingend, aber vorteilhaft, 

Dementsprechend kann die AusfUhrung bei eineia nachsten Pro- 
granraiauf ruf optimiert werden. DaB dazu die Statistikinf ormati- 
on insbesondere nicht flachtig. wie auf eine Festplatte wegge- 
schrieben werden kann^ sei erwahnt. Aus PACT22,. PACT24 ist be-- 
kannt, daJi mehrere Konf igurationen entweder zugleich konfigu- 
riert werden konnen und danach durch Trigger (PACT08) ange- 
steuert werden oder nur eine Unterraenge konf iguriert ist und 
die restlichen Konf igurationen bei Bedarf dadurch nachgeladen 
warden;- daJi die entsprechenden Trigger an eine Ladeeinheit 
(CTv FACTIO) gesendet werden. 

Der im folgenden gebrauchte Wert PAR(p) gibt zur Verdeutli- 
chung anr welche . Parallelitat auf Instruktionsniveau^ d. H> 
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wieviel ILP bei einer bestimmten Stufe .(p) innerhalb des aus 
der Funktiori transformierten Datenf luBgraphen erreichbar ist 
(Figur 7a) . 

Gieichfalls bedeutsam" ist Vektorparallelitat (vgl. VEC{}) . 
Vektorparallelitat ist nutzbar^ wenn groBere Datenmengen zu 
verarbeiten sind. In diesem Fall sind linear e Folgcn von Ope- 
rationen vektorisierbar^ d,h. alle Opsrationen kdnnen gleich- 
zeitig Datenverarbeiten^ wobei typischerweise jede separate 
Operation ein separates Datenwort bearbeitet. 

Innerhalb von Schleifen ist dieses Vorgehen teilweise nicht 
m5glich- Daher sind Analysen und Optimierungen notwendig. 
Beispielsweise kann der Graph einer Funktion durch ein Petri- 
net'z ausgedrtickt werden. Petri-Netze besitzen die Eigenschaft, 
dafi die Ergebnisweitergabe von Knoten kontrolliert erfolgt^ 
wodurch beispielsweise Schleifen modelliert werden konnen. 
Durch die Riickkopplung des Ergebnisses in einer Schleife wird 
der Datendurchsatz bestiiraat^ Beispiele: 

• Das Ergebnis der Berechnung n wird fttr die Berechnung n+1 

benOtigt: Nur eine Berechnung kann innerhalb der Schleife 
ausgefahrt werden. 

• Das Ergebnis dsr Berechnung n wird fQr die Berechnung n+m 

benatigt: m~l Berechnungen konnen innerhalb der Schleife 
ausgefahrt werden. 

• Das Ergebnis bestimmt den Abbruch der Schleife , geht aber 

nicht in die Berechnung der Ergebnisse ein: Eine Riick- 
kopplung ist nicht notwendig. Gg£. laufen zwar falsche 
(suviel) Werte in die Schleife^ jedoch kann die Ausgabe 
der Ergebnisse direkt bei Erreichen der Endbedingung am 
Schleif enende unterbrochen werden. 

Vor der Analyse von Schleifen konnen diese riach deiu Stand der 

'i 

Technik optimiert werden- 'Beispielsweise konnen bestimmte In- 
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struk-tionen aus der Schleife herausgezogen werden und vor oder 
nach die Schleife gestellt werden. 

Der im Folgenden zur Verdeutlichung gebrauchte Wert VEC kann 
den Grad der Vektorisierbarkeit einer Funktion yeranschauli^ 
cnen, Mit anderen Worten zeigt VEC an, wieviele Datenworte zu- 
gleich innerhalb einer Menge von Operationen bearbeitet werden 
kennen- VEC kann beispielsweise aus der Zahl der bencptigten 
Rechenwerke fur eine Funktion nnodes und der zugleich innerhalb 
des Vektors berechenbaren Daten ndaT:a berechnet \7erden, z.B, 

durch VEC « nnodes / noata 

1st eine Funktion beispielsweise auf 5 Rechenwerke abbildbar 
(nnodes = 5) und in jedem der Rechenwerke k5nnen zugleich Daten 
bearbeitet werden (naata = 5) ist VEC =^ 1 (Figur 7b) , 
1st eine Funktion dagegen beispielsweise auf 5 Rechenwerke ab- 
bildbar {nnodes = 5) und nur in einem Rechenwerk k5nnen jeweils 
Daten bearbeitet werden r z- B. aufgrund einer RUckkopplung der 
Ergebnisse der Pipeline auf den Eingang (n^ata = 5) , so ist VEC 
» 1/5 (Figur 7c) . 

VEC kann ftir eine gesamte Funktion und/oder far Teilausschnit- 
te einer Funktion berechnet werden. FQr den ©rfindungsgemSliJen 
Compiler konne'n beide Varianten vorteilhaft sein, wie generell 
die Bestimmung und Auswertung von VEC vorteilhaft ist. 

GemSB Figur 7a wird PAR(p) fttr jede Zeile eines Graphen be- 
st immt, wie vorteilhaft moglich- Eine Zeile eines Graphen ist 
dadurch definiert^ daB sie innerhalb einer Takteinheit ausge- 
fahrt wird. Die Anzahl der Operationen ist von der Implemen- 
tierung der jeweiligen vpu abhangig, 

Entspricht FAR(p) der Anzahl der Knoten in der Zeile pr so 
ktinnen alle Knoten parallel ausgefUhrt werden. 
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1st PAR(p) kleiner, warden bestimmte Knoten nur altiernativ 
ausgeftihrt. Die alternativen AusfOhrungen jeweils eines Kno- 
tens werden in jeweil? einer PAE zusainmeng©£aBt . Eine Selekti- 
onsvorrichtung ermOglicht die Aktivierung der^ dero Status der 
Datenverartpeitung entsprechenden. Alternative z:ur Lauf zeit wie 
beispielsweise in PACT08 beschrieben. 

VEC wird ebenfalls jeder Zeile eines Graphen zugeordnet . 1st 
far eine Zeile VEC « 1^ bedeutet dies^ dafi die Seile als Pipe- 
linestufe bestehen bleibt. 1st eine Zeile kleiner 1, so werden 
alle nachf olgenden Zeilen^ die ebenfalls kleiner 1 sind zusaia- 
inengefaBt, da ein Pipelining nicht mtiglich ist. Entsprschend 
der Pxeihenfolge der Operationen werden diese zu einer Sequenz 
zaisanucciengefaBtr die dann in eine PAE konfiguriert wird und zur 
Lauf zeit sequent iell abgearbeitet wird* Entsprechende Verfah-* 
ren sind beispielsweise aus PCT/DE 97/02949 und/oder PCT/DE 
97/02998 bekannt. 

Durch das beschriebene Verfahren las sen sich durch Gruppierun- 
gen von Sequenzern beliebig komplexe Parallelprozessormodelle 
aufbauen- Insbesondere sind Sequenzerstrukturen zur Abbildung 
von reentrantem Code generierbar. 

Die dazu jeweils notwendigen Synchronisationen k^nnen bei- 
spielsweise durch das in PACT18 beschriebene TimeStamp- 
Verfahren oder bevorzugt durch das in PACT08 beschriebene 
Triggerverf ahren durchgeftihrt werden. 

Werden mehrere Sequenzer oder sequentielle Telle auf ein PA 
abgebildet, ist es aus LQistungsverbrauchsgrQnden bevorzugt, 
die Leistung der einzelnen Sequenzer aufeinander abzustiinmen- 
Dies kann besonders bevojrsugt derairt geschehen,. da/i die Ar- 
beit sfrequenzen der Sequenzer aneinander angepaiSt werden. Aus 
PACT25 und PACTIB sind beispielsweise Verfahren bekannt, die 
eine individuelle Taktung von einzelnen PAEs oder FAE-Gruppen 
zulassen. / 
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Die Frequenz einQS Sequenzers kann dabei anhand der Ansahl von 
Zyklen best:iitimt werden, die er typischerweise zur Abarbeitung 
der ihm zugewiesenen Funktion benOtigt. 

Ben5tigt er faeispielsweise 5 Takt zyklen zur T^Darbeitung seiner 
Funktion wahrend das restliche System genau einen Taktzyklus 
benotigt., urn zugewiessne Aufgaben abzuarbeiten, sollte seine 
Taktung 5-iual haher sein als die Taktung des restlichen Sy- 
stems- Bei einer Vielzahl von Sequenzern sind jeweils unter- 
schiedliche Takt zyklen m5glich- Es kann eine Taktvervielf a- 
Chung und/oder eine Taktteilung vorgesehen werden, 

Funktionen warden entsprechend des vorgenannten Verfahrens 
partitioniert . Beim Partitionieren werden entsprechend Spei- 
cher fiir Daten und relevanten Status eingefugt- Weitere alter- 
native und/oder weitergehende Verfahren sind aus PACT13 und 
PACT 18 be kann t. 

Manche VPUs bieten nach PACTOl, PACTIO^ PACT13, PACT17^ 
PACT22r PACT24 die MOglichkeit der dif f erentiellen Rekonfigu- 
ration- Diese kann angewendet werden,- wenn nur verhaltnismMBig 
wenige Anderungen innerhalb der Anordnung von PAEs bei einer 
Rekonf iguration notwendig werden. Hit anderen Wort en werden 
nur die Veranderungen einer Konfiguration gegenuber der aktu- 
ellen Konfiguration rekonf iguriert- Die Partitionierung kann 
in diesem Fall ' dergestalt sein, dafi die auf eine Konfiguration 
folgenden (dif f erentielle) Konfiguration nur die notwendigen 
Rekonf igurationsdaten enth^lt und keine vollstkndige Konfigu- 
ration darstellt. Der Compiler der vorliegenden Erfindung ist . 
bevorzugt dazu ausgebildet^ dies zu erkennen und zu unterstut- 
zen. 

Das Scheduling der Rekonf iguration kann durch den Status er- 
folgen^ der Funktion (en) an eine Ladeeinheit (CT) meldet^ wel- 
che ihrerseits auf Basis des eingehenden Status die n^chste 
Konfiguration pder Teilkonf iguration auswahlt und konfigu- 
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riert. Im Detail sind derartige Verfahren aus PACTOl, PACTOS^ 
PACTIO, PACT13^ PACT17 bekannt. 

Weiterhin kann das Scheduling die Moglichkeit des Vorladens 
vQu Konf igurationen wShrend der Laufzeit einer anderen Konfi- 
guration unterstatzen. Dabei konnen mehreire Konf igurationen 
m5glicherweise auch sp^kulativ vorgeladen warden, d.h- ohne 
dali sichergestellt ist^ daiJ die Konf igurationen \iberhaupt be- 
not igt warden. Dies ist besonders dann bevorzugt^ wenn die CT 
etwa bei langeren, konf igurationsfrei abarbeitbaren DatenstrO- 
luen ziamindest weitgehend unbelastet ist und insbesondere nicht 
Oder nur wenig auf gabenbelastet ist. Durch Selektionsmechanis- 
men wie etwa nach DE 197 04 728-9 werden dann zur Laufzeit die 
zu verwendenden Konf igurationen ausgewM.hit (siehe auch Bei^ 
spiel NLS in PACT22/24) - 

Ebenfalls konnen die lokalen Sequenzer durch den Status ihrer 
Datenverarbeitung gesteuert werden, wie etwa aus DB 196 51 
075,9-53/ DE 196 54 846.2-53, DE 199 26 538:0 bekannt. Zur 
Durchftthrung ihrer Rekonf iguration kann ein weiterer abhangi- 
ger oder unabhSlngiger Status an die CT gemeldet werden (siehe 
beispielsweise PACT04r LLBACK) . 

Das Vorstehende wird nun mit Bezug auf weitere Figuren be- 
schrieben- Dabei werden im folgenden folgende Zeichen zur Ver- 
einfachung der Schreibung verwendet: v oder;, a und« 

F&gnx 8a zeigt die Abbildung des Graphens nach Fig. 7a auf ei- 
ne Gruppe von PAEs bei maximaler erreichbarer Parallelitat.. 
samtliche Operationen (Instruktion il-il2) sind in einzelne 
PAEs abgebildet. 

Fxgur 8b zeigt denselben Graphen, beispielsweise mit maximaler 
nutzbarer Vektorisierbarkeit . Jedoch sind die Mengen von Ope- 
. rationen V2«{il, 13};. V3^{i4, i5, 16, 17, 18}, V4«{i9, ilO, . 
ill} nicht parallel par (par ({2^3, 4})= 1. Damit lassen sich / 
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Ressourcen einsparen/ indem jeweils sine Mange P2, P3, P4 ^on 
Operationen einer PRE zugeordnet wird. Ein Statussignal zu je- 
dem Datenwort in jeder Stufe wahlt die auszuftihrende Operation 
in der jeweiligen PAE aus. Die PAEs sind als Pipeline (Vektor) 
vernetzt und jede PAE fUhrt je TaJcC eine Operation tiber je- 
weils unterschiedliche Datenwort aus. 

Es eirgibt sich folgendex Z^blauf : 

PABl berechnet Daten und gibt diese an PAE2 weiter. Zusammen 
mit'den Daten gibt sie ein statussignal weiter, das anzeigt, 
ob il Oder 12 ausgeftihrt warden soli. 

PAE2 berechnet die Daten von PAEl weiter. Entsprechend des 
eingehenden Statussignals wird die auszufahrende Operation 
Cil, 12) ausgewahlt und berechnet. Entsprechend der Berechnung 
gibt PAE2 ein Statussignal an PAB3 weiter, das anzeigt, ob {14 

V 15) V (16 vi7 V 18) ausgefahrt warden soil. 

P&E3 berechnet die Daten von PAE2 weiter. Entsprechend des 
eingehenden Statussignals .wlrd die auszufOhrende Operation (14 

V 15) V (16 V 17 V 18) ausgewahlt und berechnet. Entsprechend 
der Berechnung gibt PAE3 ein Statussignal an PAE4 welter, das 
anzeigt ob 19 v 110 v ill ausgefahrt werden soli. 

PAE4 berechnet die Daten von PAE3 weiter. Entsprechend des 
eingehenden Statussignals wird die auszuffthrende Operation 19 

V ilO V ill ausgewahlt und berechnet, 
PAES berechnet die Daten von PAE4 weiter. 

Bin mogliches entsprechendes Verfahren und Hardware, die eine 
besonders giinstige Oiasetzung des beschriebenen erlaubt, ist in 
DE 197 04 728.9 (Figuren 5 und 6) beschrieben; auch PACT04 und 
PACTIO, PACT13 beschreiben allgemein nutzbare, jedoch aufwen- 
digere Verfahren. 

Pigur 8c zeigt wisderum denselben Graphen. In diesem Beispiel 
1st eine Vektorisierung nicht moglich, jedoch' ist PAR(p) hoch, 

I 
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was bedeutet, daB innerhalb einer Zeile jeweils eine Vielzahl 
von Operationen gleichzsitig ausgefUhrt vrerden kann- Die 
parallel durchfahrbaren Operationen sind P2 {il a i2>, P3 - 
{i4 A 15 A 16 A 17 A 18}, P4 = {19 A 110 a 111}. Die PAEs sind 
derart vernetzt^ daB sle bellebige Daten belisbig .unterelnan- 
der austauschen konnen. Die einzelnen PAEs fiihren nur dann 
Operationen durch, wenn im entsprechenden ZyJclus ein XL? be- 
steht^r ansonsten verhalten sie sich neutral (NOP) ^ wobel ggf. 
Heruntertaktung und/oder eine Takt- und/oder Stromabschaltung 
zur Minimierung der Verlustleistung erfolgen kann. 
Es ist dabei folgender Ablauf vorge3ehen: 

Im ersten Zyklus arbeitet nur PAE2 und gibt die Daten an PAE2 
und PAE3 welter. 

Im' zweiten Zyklus arbeiten PAE2 und PAE3 parallel und geben 
ihre Daten an PAEl, PAEZ, PAE3, PAE4, PAES weiter, 
Im ciritten Zyklus arbeiten PAEl, PAE2;. PAE3^ PAE4, PAES und 
geben die Daten an PAE2/ PAE3,. PAES welter. 

Im vierten Zyklus arbeiten PAE2, PAE3,. PAES und geben die Da- 
ten an PAE2 welter. 

im fiinften Zyklus arbeitet nur PAE2 - 

Die Funktion bendtigt somit 5 Syklen zur Berechnung, Der ent- 
sprechende Sequenzer sollte also mit dem 5-fachen Takt im Ver- 
haltnis zu seiner Umgebung arbeiten, urn eine entsprechende 
Performance zu erzielen. 

Ein mogliches entsprechende s Verfahren ist in PACT02 (Figuren 
is/ 20 und 21) beschrieben; auch PACT04 void PACTlOr 13 be- 
schreiben a'llgemein nutzbare^ jedoch aufwendigere Verfahren - 
Weitere Verfahren und/oder Hardware sind verwendbar- 

Figrur Sd. zeigt den Graphen nach Fig. 7a fur den Fallr daB kei- 
nerlei nutzbare Parallelitat besteht. Zur Berechnung eines Da- 
tenwortes muB jede Stufe nacheinander durchlaufen werden- In- 
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nerhalb der Stuf en wird immer nur genau einer der Zweige ver- 
arbeitet. 

Die Funktion benStigt: ebenfalls 5 Zykl©n zur Berechnung, cyl « 
(il), cy2 = (12 V 13), cy3 - (14 v 15 v 15 v 17 v 18), cy4 = 
(19 V 110 V IIX), cy5 (112) . Der entsprechende Sequenzer 
3Qllte also mit dem 5-fachen Takt im verhaltnls zu seiner Um- 
gebung arbeitenr um elne entsprechende Performance zu erzie- 
len - 

Eine derartige Funktion ist belspielsweise ahnlich Fig. 8c 
durch einen einfachen Sequenzer nach P^CT02 ( Figuren 19. 20 
und 21)abbildbar. Auch PACT04 und PACTIO, 13 beschreiben all- 
gemein nutzbare. jedoch aufwendigere Verfahren, 



Die in Figur 8 dargestellten Abbildungen sind beliebig misch- 
bar und gruppierbar. 

In Fignr 9a ist bsispielsw'Sise dieselbe Funktion dargestellt, 
bei welcher die Pfade (iZ A (14 v i5) a 19) und (13 a (16 v 17 
V 18) A (19 V ilO)) parallel ausftihrbar sind. (14 v 15), 16 v 
i7 V 18) r (19 V 110) sind jeweils alternativ. Die Funktion ist 
weiterhin vektorisierbar. Daiuit last sich eine Pipeline auf- 
bauen, in welcher fur 3 PAEs (PAE4, PAES, PAE7) jeweils anhand 
von Status signalen die jeweilig auszufUhrende Funktion be- 
stiiatat ist. 

Figur 9b zeigt eln ahnliches Beisplel, bei deia eine Vektori- 
slerung nlcht moglich ist. Allerdings sind die Pfade 
(11 A 12 A {14 V 15) A 19 A 112) und (13 A (15 v 17 v 18) a 
(110 V ill)) parallel. Damit lalit sich die optlmale Perfor- 
mance durch den Elnsatz von zwei PAEs erzlelen^. die bei die 
parallelsn Pfade auch parallel abarbelten. Die Synchronisation 
der PAEs untereinander erfolgt durch Status signale^ die vor- 
zugsweise von PAEl generiert werden. da dlese den Beglnn (11) 
und das Ende (il2) der Funktion berechnetl • 
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Es soli besonders darauf hingewiesen warden, daJ5 sich aus ei~ 
ner mehrfachen Anordnung von Sequenzern ein symetrisch paral- 
leles Prozessormodell (SMP) oder ahnliche^ heute verwendete . 
Mehrprozessormodelle ergeben konnen. 

Weiterhin soli darauf hingswieeen werden, daB isaiatliche Konfi- 
gurationsregister fur das Scheduling auch im Hintergrund 
und/oder wahrend der Datenverarbeitung mit neuen Konf iguratio- 
nen geladeu werden kOnnon* 

Es ist dies etwa mOglichr wenn die Hardware wie nach DE 196 51 
075-9-53 bekannt aufgebaut ist- Es stehen dann unabhSngige 
Speicherbereiche Oder Register zur Verftigung^ die uxiabhangig 
ange3prochen werden kttnnen^ Auf bestimmte Stellen wird durch 
eingehende Trigger gesprungen^ ebenfalls kann mitt els Sprung- 
befehlen ( JMFj^ CALL/RET) r die ggf . auch bedingt durchftihrbar 
sind gesprungen werden. 

Gemafi DE 196 54 846,2-53 stehen unabhangige Schreib- and Lese- 
zeiger zur Verftigung, wodurch grundsatzlich sine UnabhSngig- 
keit und somit die MSglichkeit des Zugriffes im Hintergrund 
gegeben ist. Insbesondere ist es moglich, die Speicher zu seg- 
mentieren, wodurch eine zusatzliche Unabhangigkeit gegeben 
ist. lyiittels Sprungbefehlen (JMP^ CALL/RET),- die ggf* auch be- 
dingt durchftihrbar sind^ kann gesprungen werden - 

Nach DE 197 04 728.9 sind die einzelnen Register,- die durch 
" die Trigger gewShlt werden kannen,. grunds^tzllch unabhSngig 
und erlauben daher eine unabhSngige Konfiguration, insbesonde- 
re im Hintergrund- Sprunge innerhalb der Register sind nicht 
mGglichr die Auswahl erfolgt ausschlieBlich tiber die Trigger-- 
vektoren. 

*i 
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Ein wesentlicher Faktor zur Bewertung der Effizienz von PAR 
und VEC ist die Art der Daten die durch die jeweilige Struktua 
verarbeitet werden. Beispielsweise ist es lohnen eine Struktui 
auszuwalzen^ also zu pipelinen und oder parallelisieren, die 
eine groBe Menge von Daten verarbeitet; wie es z.B. bei Video- 
daten oder Telekomdaten der Fall ist. Strukturen die wenige 
Daten verarbeiten (z-B, Tastatureingabe, Maus, etc-) lohnen 
sich nicht ausgewalzt zu werden, iia Gegenteil sie wtirden nur 
anderen Algorithmen die Ressourcen blockieren. 

Sbmit wird vorgeschlagen anhand unterschiedlicher Hinweise nur 
die Algorithmen, Strukturen oder Teile von Algorithmen zu par- 
allelisiern und vektorisieren, die entsprechend groBe Daten- 
mengen Verarbeiten. 

Derartige Hinweise konnen beispielsweise sein: 

1. Der Datentyp (Arrays, Streams sollten z.B, aufgrund der ho- 
hen Datenmenge eher ausgewalzt werden als z.B. einzelne Zei- 
chen) . 

2. Die Art des Zugriffes (lineare Programmabf olgen sollten 
z.B. in Sequenzer abgebildet werden, wShrend Schleifen sich 
z.B. aufgrund der hohen Anzahl von DurchlSufen zum Auswalzen 
lohnen - 

3. Die Art der Quelle und/oder des Ziels (Tastatur und Maus 
haben z.B. eine zu geringe Datenrate urn effizient ausgewalzt 
zu werden, dagegen ist z.B* die Datenrate bei Netzwerk 
und/oder Video Quellen oder Zielen deutlich hoher) . 

PQr die Analyse konnen dabei eine beliebige Menge dieser Hin- 
weise hinzugezogen werden. 

7 , Becracif f sdefxnitjLon 
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lokal reletvanter Zustand 



global relevanter Zustand 



relevanizer Zustand 



xrxelevan-ter Zusirand 



Zustand^ der nur innerhalb e 
ner bestiinmten Konf iguration I 
relevant ist; 

Zustand, der in xnehreren Kon- 
figurationen relevant ist unc 
zwischen den Konf igurationen 
ausgetauscht werden mufi; 

Zustand, der innerhalb eines 
Algorithmus zu dessen korrek- 
ter Ausftihrung dessen beniStig 
wird und somit durch den Algo- 
rithmus beschrieben ist und 
davon verwendet wird; 

Zustand, der fur den eigentli- 
chen Algorithmus ohne Bedeu- 
tung ist und auch nicht iiu Al- 
gorithmus beschrieben ist, dei 
jedoch von der ausftlhrenden 
H a r dwa re imp 1 ©men t i e rungs ab- 
hangig benotigt wird 
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Pat entanspr ache 

1. verfahren zum tJbersetzen von Hochsprachen auf rekonfigu- 
rierbare Architekturen, dadurch gekennzeichnetf dafi ein 
endlicher Automat zur* Berechnung derart aufgebaut wird, ds 
ein komplexes koinbinatorisches Netz aus einzelnen Funktio- 
nen gebildet wird und dem Netz Speicher zur Speicherung de 
Operanden und Ergebnissen zugeordnet sind. 

2. Verfahren zuro Datenbe- und/oder verarbeitung mit einem mul 
tidimensionalen Feld mit rekonf igurierbaren ALUs^ dadurch 
gekennzeichnet/ dafi ein Hochsprachencode vorgesehen und 
derart dtaersetzt wird, dafi ein endlicher Automat zur Be- 
rechnung aufgebaut wird, wobei ein komplexes kombinatori- 
sches Netz aus einzelnen Funktionen gebildet und dem Netz 
Speicher zur Speicherung der Operanden und/oder Ergebnisse 
zugeordnet werden. 

3- Verfahren nach einem der vorhergehenden Anspriiche^ dadurch 
gekennzeichnet, daJJ das komplexe kombinatorische Netz so 
aufgebaut und/oder zerlegt wird, dafl die PAE-Matrix mbg- 
lichst lange ohne Rekonf igurat ion betrieben wird. 

4. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daB komplexe Instruktionen bestimmt werden, um 
das komplexe kombinatorische Netz so aufzubauen und/oder z^ 
zerlegen^ daft die PAE-Matrix moglichst lange ohne Rekonfi- 
guration betrieben wird. 

5. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch 
gekennzeichnet, daB ein endlicher Automat direkt aus impe- 
rativem Quelltext aufgebaut wird. 
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6. Verfahren nach einem der vorhergehenden Ansprttche, dadurc". 
gekennzelchnet, dafl ein endlicher Automat aus an grobgrani 
lare Logikkreise und/oder an vorhandene feingranulare Ele- 
mente (FPGA-Zellen in der VPU, statemachines etc) angepaf 
te Operationen aufgebaut wird, insbesondere ausschlieJBlict 
an solche. 

7. Verfahren nach einem der vorhergehenden AnsprUche, dadurch 
gekennzeichnet, dafi ein endlicher Autoiaat dann in Konfigu- 
rationen zerlegt wird. 



8. Verfahren nach einem der vorhergehenden AnsprCiche, dadurch 
gekennzeichnet, dafi generierte Konf igurationen succesive 
auf die PAE-Matrix abgebildet werden und Arbeitsdaten 
und/oder Zustande, die zwischen den Konf igurationen zu 
iibertragen sind, in Speicher abgelegt werden. 

9. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, dafi der Speicher vom Compiler bestimmt bezie- 
hungsweise verges ehen wird. 

10. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, dafi wShrend einer Konfiguration Daten aus einer 
VPU externen Quelle und/oder einem internen Speicher verar- 
beitet und an eine externe Quelle und/oder einen internen 
Speicher geschrieben werden. 

11. Verfahren nach einem der vorhergehenden Ansprache, dadurch 
gekennzeichnet, dafi ein Speicher far einen gesamten Daten- 
satz vorgesehen wird, der umfangreicher als ein einzelnes 
Datenwort ist. 

12. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, dafi bei Verarbeitung einer ablaufenden Kon- 
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figuration Daten compilarbestiinrat in die Speicher abgeleg 
werden . 

13. Verfahren nach einem der vorhergehenden AnsprQche, dadurcl 
gekennzeichnet, dafi ein Speicher far Operanden, ein Spei- 
cher fur Ergebnisse und ein Netzwerk aus Zuweisungen 
und/oder Vergleichen-Anweisungen/ also Bedingungen wie z.I 
IF, CASE, Schleifen (WHILE, FOR, REPEAT) sowie optionalen 
Adressgenerator (en) zur Ansteuerung der Speicher rait deia 
Automaten vorgesehen werden. 

14. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dali Zustanden wie erforderlich Speicher zu 
geordnet werden, und hierbei zwischen algorithmisch rele- 
vanten und irrelevanten Zustanden unterschieden wird, ins- 
besondere solchen relevanten Zustanden, die innerhalb des 
Algorithmus notwendig um dessen korrekte Funktion zu be- 
schreiben und solchen irrelevante Zustande, die durch die 
verwendete Hardware und/oder die gewahlte Abbildung oder 
aus anderen sekundaren GrOnden entstehen. 

15. verfahren nach einem der vorhergehenden Ansprtlehe, dadurch 
gekennzeichnet, daU Load/Store Operationen unter vorsehen 
einer externen Adressierung, also des Datentransf ers mit 
externen Baugruppen und einer interne Adressierung, also 
die Datentransfers zwischen PAEs, i.b. zwischen RAM-PAEs 
und ALO-PAEs vorgesehen werden. 

16. Verfahren nach einem der vorhergehenden AnsprQche, dadurch 
gekennzeichnet, dafi bei der Datenverarbeitung eine erste 
Konfiguration entfernt wird und die zu sichernden Daten in 
entsprechenden Speichern (REG) (Speicher, Register, Zahler 
etc) verbleiben. 
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17. Verfahren nach einem der vorhergehenden Anspruche/ dadurc 
gekennzeichnet, daii die erste Konf iguration wieder gelade 
wird und auf die zuvor gesicherterten, ihr zugeordnete Da 
ten zugreift. 

18. Verfahren nach einem der vorhergehenden AnsprUche, dadurcl 
gekennzeichnet, daii far den Zugriff auf zuvor gesichertert 
Daten eine zweite Konf iguration geladen wird, die die REG 
in geeigneter Weise und definierter Reihenfolge mit einem 
Oder mehreren globalen Speicher(n) verbindet, insbesondere 
urn unter Verwendung von Adressgeneratoren auf den/die glo- 
balen Speicher zuzugreifen, wobei der Adressgenerator die 
Adressen fiir den/die globalen Speicher (n) bevorzugt derart 
generiert, dass die beschriebenen Speicherbereiche (POSHA- 
REA) der entfernten ersten Konfiguration eindeutig zugeord- 
net werden kdnnen. 

19. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, daB automatisch Transformation zur Repre- 
sentation der Parallelisier- bzw. Vektorisierbarkeit (Par- 
Vec-Trans formation) durchgeftihrt werden und/oder VEC und 
PAR-Anteile als Petri-Netz ausgestaltet werden, um wie be- 
vorzugt die Weiterverarbeitung nach kompletter Verarbeitunc 
der jeweiligen Inhalte zu steuern. 

20. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch 
gekennzeichnet, dafi 

arithmetisch/logische Befehle direkt in das kombinatorische 
Netz abgebildet werden und/oder 

Sprtinge (Jump/Call) entweder direkt in das kombinatorische 
Netz ausgewalzt und/oder durch Re konfiguration realisiart 
werden und/oder 

Bedingungen und Kontrollf luBbefehle (if, etc) entweder im 
koinbinatorischen Netz vollstandig aufgelOst und /oder bear- 
beitet werden und/oder an eine Obergeordnete Konfigurati- 
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onseinheit weitergeleitet werden^ die sodann entsprechend 
des entstandenen Status eine Rekonf iguration durchfUhrt 
und/oder I 
Load/St ore-Operationen in separate Konf igurationen abgebi 
det und/oder durch Adressgeneratoren realisiert werden, d: 
internen Speicher (REG{}) mittels Adressgeneratoren in ex- 
terne Speicher schreiben und/oder diese von externen Spei- 
chern und/oder Peripherie laden und/oder 

Register-Move-Operationen im kombinatorischen Netz durch 
•Busse zwischen den internen Speichern (RSG{1) realisiert 
werden und/oder 

Push/ Pop-Opera tionen durch separate Konf igurationen reali- 
siert werden^ die bestiromte interne Register iiu kombinato- 
rischen Netz und/oder "die internen Speicher {REG{}) mittels 
Adressgeneratoren in extern© Speicher schreiben oder aus 
externen Speichern lesen und die bevorzugt vor oder nach 
den eigentlichen datenverarbeitenden Konf igurationen ausge- 
fQhrt werden. 



vorstehend : 

FCT-*Pai:entazi]iield'ang fur alle Lander 
der 

£aci: Technologxes AG 

Ma-thmannstr . 1 
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EdiPfangszeit 16. Aug. 23:37 



68 



rn • ■ nt-vM 



Z us aininenf a s s sung 

Die Erfindung betrifft die Datenverarbeitung mit multidimen- 
sionalen Feldern und gibt an, wie hierfUr vorteilhaft Hoch- 
sprachencodes einsetzbar sind. 
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